分块矩阵乘法的程序性能.docVIP

下载本文档

43
0
约2.55千字
约 6页
2016-11-05 发布于重庆
举报
版权申诉

分块矩阵乘法的程序性能.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分块矩阵乘法的程序性能

实验四分块矩阵乘法的程序性能一、实验目的本次实验比较分块矩阵乘法与普通矩阵乘法的性能，并考察分块大小对分块矩阵乘法性能的影响。二、实验原理 1、矩阵相乘为简单起见，本次实验矩阵相乘中的矩阵都是方阵，行数和列数都为 n 。 2、程序性能本次实验中考察的程序性能指的是程序的CPU执行时间。在C语言程序中，可以考虑利用clock()函数来计算某段代码执行的CPU时间。注意，clock()的精度为1ms，对于比较小的矩阵相乘，可能精度不够。如果需要使用高精度的计时方法，可以考虑利用CPU内的实时时钟计数器（RTSC），或性能计数器（Performance Counter）。 3、分块矩阵乘法 1、普通矩阵乘法是采用三层循环完成，如下图所示。 2、分块的矩阵乘法为了利用局部性提高Cache（高速缓存）利用率，采用了如下所示代码。请编写普通矩阵乘法和分块矩阵乘法的实验和测试代码，记录实验结果。另外，本次实验还需要研究不同分块大小对性能的影响，请编写相应的实验和测试代码，并记录实验结果。三、实验步骤 void mmm(double * a, double * b, double * c, int n) { int i, j, k; for (i = 0; i n; i++){ for (j = 0; j n; j++){ for (k = 0; k n; k++){ c[i * n + j] += a[i * n + k] * b[k*n + j]; } } } } void mmm2(double * a, double * b, double * c, int n) { const int B = 10; int i, j, k; int i1, j1, k1; for (i = 0; i n; i+=B){ for (j = 0; j n; j+=B){ for (k = 0; k n; k+=B){ for (i1 = i; i1 i + B; i1++){ for (j1 = j; j1 j + B; j1++){ for (k1 = k; k1 k + B; k1++){ c[i1 * n + j1] += a[i1 * n + k1] * b[k1 * n + j1]; } } } } } } } inline double compute_time(clock_t begin, clock_t end) { return static_castdouble(static_castdouble((end - begin)) / static_castdouble(CLOCKS_PER_SEC)); } int main() { double * a = (double*)malloc(sizeof(double)* n * n); double * b = (double*)malloc(sizeof(double)* n * n); double * c = (double*)malloc(sizeof(double)* n * n); memset(a, 0, sizeof(double) * n * n); memset(b, 0, sizeof(double) * n * n); memset(c, 0, sizeof(double) * n * n); clock_t start = clock(); mmm(a, b, c, n); std::cout compute_time(start, clock()) std::endl;; start = clock(); mmm2(a, b, c, n); std::cout compute_time(start, clock()) std::endl; } 四、实验结果 1、N = 50和N=100时，结果如下图所示： 2、N = 150和N=200时，结果如下图所示： 3、N=250和N=300时，结果如下图所示： 4、N=350和N=400时，结果如下图所示： 5、N=450和N=500时，结果如下图所示： 6、N=550和N=600时，结果如下图所示： 7、N=650和N=700时，结果如下图所示： 8、N=750和N=800时，结果如下图所示： 9、N=850和N=900时，结果如下图所示： 10、N=950和N=1000时，结果如下图所示：五、结果分析 1、数据列表如