稀疏线性代数方程组迭代法中得预处理技术研究.pptVIP

下载本文档

0
0
约2.95千字
约 26页
2017-09-10 发布于浙江
举报
版权申诉

稀疏线性代数方程组迭代法中得预处理技术研究.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

稀疏线性代数方程组迭代法中得预处理技术研究

1999-04-10 稀疏线性代数方程组迭代法中的预处理技术研究 1999-04-10 博士论文答辩混凝土材料断裂过程模拟程序中的高性能并行算法开发吴建平、王正华国防科学技术大学计算机学院并行与分布处理国防科技重点实验室报告内容原串行程序的结构特点原串行程序的结构特点(续) 原串行程序的结构特点(续) 报告内容单机计算速度的提升方法单机计算速度的提升方法(续) 单机计算速度的提升方法(续) 报告内容并行算法设计时的若干关键问题全局并行计算策略整体刚度矩阵的并行装配稀疏线性方程组的并行求解稀疏向量的全局并行相加计算效果对更大规模机器的需求对不同模型对应程序改造的代价对不同模型对应程序改造的代价(续) 推广应用前景报告内容对高性能计算的几点看法对计算资源进行集中调度与使用软件开发要跟上硬件设施的采购并行算法是一门大学问问题规模：44117个网格点系数矩阵的总外形约649M，分解需要约3.3T个浮点操作 2.53GHz，1G内存：CVF Debug模式，默认优化编译一次加载所发费的时间约18.01小时； Asesk子程序所发费的时间约17.9小时； Demove总共需要约17.78小时； Foba所发费的时间共约7.3分钟； Demove占总时间98.74%，Demove+Foba的时间约占总时间的99.42%； CVF Release模式，最佳优化编译一次加载内Asesk子程序约需2.92小时； Demove总共约需2.87小时； Foba所发费的时间约7.3分钟； Asesk+Foba的时间占总时间99%左右；分成21块计算时，辅存需要6个多G。原串行程序的结构与特点单机计算速度的提升方法并行算法设计时的若干关键问题简介对高性能计算的几点看法程序优化技术循环调换将重复计算缩减为一次浮点除法替换为浮点乘法将循环内的计算尽可能外提将直接法改进为预条件CG法迭代法内主要是矩阵乘向量，矩阵每行约81 个非零元，对44117个网格点的问题，一次矩阵向量乘只要21.4M个浮点操作选取ICT(50,10-3)预条件时，预条件构造时间 19.6秒，129次预条件迭代时间共38.31秒，残量2范数与右端项2范数的比值达7.4×10-11。先进的全局刚度矩阵装配技术逐单元装配法开辟有限的存储空间，用其对每个单元的信息逐步存储，用指针指明各未知量对应的行中各元素的列号与值。空间不足时，对相关单元都已存储的未知量对应的行进行装配，并倒空。直接逐行全局装配法直接利用指针来链接每个未知量所直接联系到的所有单元与在单元中的局部编号，逐未知量进行装配原串行程序的结构与特点单机计算速度的提升方法并行算法设计时的若干关键问题简介对高性能计算的几点看法全局并行计算策略整体刚度矩阵的并行装配稀疏线性方程组的并行求解稀疏向量的全局并行相加全局按单元进行任务分配对各个小数组，从0号进程读入后，广播到其他进程最后一维为未知量个数的数组在每个进程上都保存一份稀疏线性方程组的并行求解按未知量个数进行任务分配确定与每个未知量直接相关的局部单元个数在每个进程上进行局部装配对各个进程上的局部矩阵进行累加，得到整体刚度矩阵每个进程对局部每一行中的非零元按列号进行排序稀疏矩阵与向量的并行乘法该操作的通信结构始终不变，事先确定通信结构后，再在后续迭代中反复用其收集局部计算需要用到的其他进程上的分量 ICT预条件的并行化 ICCP2003：局部分解并行化技术并行对角元归一化算法对最后一维长为未知量个数的向量，有的是从有限元信息得到的，所以得到的局部向量是稀疏的，要采用稀疏向量技术进行存储，也要采用稀疏向量技术进行并行累加来得到全局结果向量，以减少计算时间。机器：Sun6800,4个CPU，8G内存问题：71017个网格点，78800个单元第1次加载约需60秒第2次到第58次加载每次约需50秒总共需要计算94次加载，估计大约只要3个小时左右。虽在4 CPU的Sun6800上，求解71017 个网格点的问题只要3个小时，但随问题规模的增大，计算时间将大幅增加，为实时计算，必须增大机器规模当问题规模大幅增加时，物理内存不足也将影响问题求解，从而也需要增大机器规模对编译好的可执行程序，输入都集中在3个文件中；开发的核心算法形成了软件