稀疏线性代数方程组迭代法中得预处理技术研究.pptVIP

稀疏线性代数方程组迭代法中得预处理技术研究.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
稀疏线性代数方程组迭代法中得预处理技术研究

1999-04-10 稀疏线性代数方程组迭代法中的预处理技术研究 1999-04-10 博士论文答辩 混凝土材料断裂过程模拟程序中的高性能并行算法开发 吴建平、王正华 国防科学技术大学计算机学院 并行与分布处理国防科技重点实验室 报告内容 原串行程序的结构特点 原串行程序的结构特点(续) 原串行程序的结构特点(续) 报告内容 单机计算速度的提升方法 单机计算速度的提升方法(续) 单机计算速度的提升方法(续) 报告内容 并行算法设计时的若干关键问题 全局并行计算策略 整体刚度矩阵的并行装配 稀疏线性方程组的并行求解 稀疏向量的全局并行相加 计算效果 对更大规模机器的需求 对不同模型对应程序改造的代价 对不同模型对应程序改造的代价(续) 推广应用前景 报告内容 对高性能计算的几点看法 对计算资源进行集中调度与使用 软件开发要跟上硬件设施的采购 并行算法是一门大学问 问题规模:44117个网格点 系数矩阵的总外形约649M,分解需要约3.3T个浮点操作 2.53GHz,1G内存:CVF Debug模式,默认优化编译 一次加载所发费的时间约18.01小时; Asesk子程序所发费的时间约17.9小时; Demove总共需要约17.78小时; Foba所发费的时间共约7.3分钟; Demove占总时间98.74%,Demove+Foba的时间 约占总时间的99.42%; CVF Release模式,最佳优化编译 一次加载内Asesk子程序约需2.92小时; Demove总共约需2.87小时; Foba所发费的时间约7.3分钟; Asesk+Foba的时间占总时间99%左右; 分成21块计算时,辅存需要6个多G。 原串行程序的结构与特点 单机计算速度的提升方法 并行算法设计时的若干关键 问题简介 对高性能计算的几点看法 程序优化技术 循环调换 将重复计算缩减为一次 浮点除法替换为浮点乘法 将循环内的计算尽可能外提 将直接法改进为预条件CG法 迭代法内主要是矩阵乘向量,矩阵每行约81 个非零元,对44117个网格点的问题,一次 矩阵向量乘只要21.4M个浮点操作 选取ICT(50,10-3)预条件时,预条件构造时间 19.6秒,129次预条件迭代时间共38.31秒,残 量2范数与右端项2范数的比值达7.4×10-11。 先进的全局刚度矩阵装配技术 逐单元装配法 开辟有限的存储空间,用其对每个单元的信息逐步存储,用指针指明各未知量对应的行中各元素的列号与值。空间不足时,对相关单元都已存储的未知量对应的行进行装配,并倒空。 直接逐行全局装配法 直接利用指针来链接每个未知量所直接联系到的所有单元与在单元中的局部编号,逐未知量进行装配 原串行程序的结构与特点 单机计算速度的提升方法 并行算法设计时的若干关键 问题简介 对高性能计算的几点看法 全局并行计算策略 整体刚度矩阵的并行装配 稀疏线性方程组的并行求解 稀疏向量的全局并行相加 全局按单元进行任务分配 对各个小数组,从0号进程读入 后,广播到其他进程 最后一维为未知量个数的数组 在每个进程上都保存一份 稀疏线性方程组的并行求解按 未知量个数进行任务分配 确定与每个未知量直接相关的 局部单元个数 在每个进程上进行局部装配 对各个进程上的局部矩阵进行 累加,得到整体刚度矩阵 每个进程对局部每一行中的非 零元按列号进行排序 稀疏矩阵与向量的并行乘法 该操作的通信结构始终不变,事先确定通 信结构后,再在后续迭代中反复用其收集 局部计算需要用到的其他进程上的分量 ICT预条件的并行化 ICCP2003:局部分解并行化技术 并行对角元归一化算法 对最后一维长为未知量个数的向量,有的是从有限元信息得到的,所以得到的局部向量是稀疏的,要采用稀疏向量技术进行存储,也要采用稀疏向量技术进行并行累加来得到全局结果向量,以减少计算时间。 机器:Sun6800,4个CPU,8G内存 问题:71017个网格点,78800个单元 第1次加载约需60秒 第2次到第58次加载每次约需50秒 总共需要计算94次加载,估计大约只 要3个小时左右。 虽在4 CPU的Sun6800上,求解71017 个网格点的问题只要3个小时,但随 问题规模的增大,计算时间将大幅增 加,为实时计算,必须增大机器规模 当问题规模大幅增加时,物理内存不 足也将影响问题求解,从而也需要增 大机器规模 对编译好的可执行程序,输入都集中 在3个文件中; 开发的核心算法形成了软件

文档评论(0)

ctuorn0371 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档