面向多核DSP的高性能并行BLAS3的设计与实现-软件工程专业毕业论文.docxVIP

  • 45
  • 0
  • 约7.82万字
  • 约 79页
  • 2019-05-11 发布于上海
  • 举报

面向多核DSP的高性能并行BLAS3的设计与实现-软件工程专业毕业论文.docx

国防 国防科学技术大学研究生院工程硕士学位论文 第 I 第 II 页 万方数据 4.1.2 SYMM 的算法设计与实现 42 SYRK 的实现 44 SYRK 的算法分析 44 4.2.2 SYRK 的算法设计与实现 45 SYR2K 的实现 47 SYR2K 的算法分析 47 4.3.2 SYR2K 的算法设计与实现 48 TRMM 的实现 48 TRMM 的算法分析 48 4.4.2 TRMM 的算法设计与实现 49 4.5 性能测试与分析 50 4.6 本章小结 51 第五章 BLAS3 的多核设计与实现 53 5.1 GEMM 的并行性分析 53 5.2 GEMM 的多核设计与实现 54 5.3 SYMM 的多核设计与实现 56 5.4 SYRK 和 SYR2K 的多核设计与实现 58 5.5 TRMM 的多核设计与实现 60 5.6 性能测试与分析 61 5.6.1 GEMM 的多核性能测试与分析 61 5.6.2 BLAS3 的多核性能测试与分析 62 5.7 本章小结 63 结 束 语 65 致 谢 67 参考文献 68 作者在学期间取得的学术成果 73 第 II 第 III 页 万方数据 表 目 录 表 2.1 BLAS 中不同运算的开销 5 表 3.1 GEMM 的术语释义 14 表 4.1 BLAS3 的例程库 40 万方数据 万方数据 图 目 录 图 2.1 TMS320C6678 结构框图 6 图 2.2 C6678 CorePac 功能框图 7 图 2.3 C66x CorePac 功能单元 8 图 2.4 C6678 的层级存储结构图 10 图 3.1 GEMM 的分块运算 14 图 3.2 GEMM 的分块实现方案 15 图 3.3 对应图 3.2 的三重循环算法实现 15 图 3.4 基于 Cache 的多级存储模型 16 图 3.5 基于 Cache 级的 GEBP 17 图 3.6 基于 Register 级的 GEBP kernel 18 图 3.7 基于 Cache 级的 GEPB 20 图 3.8 基于 Register 级的 GEPB kernel 21 图 3.9 基于 Cache 级的 GEPDOT 23 图 3.10 基于 GEBP 的 GEPP 25 图 3.11 基于 GEBP 的 GEPP 的数据搬移 27 图 3.12 GEBP 的矩阵 A 和 B 的封装 28 图 3.13 Cache 的增量访存方法 28 图 3.14 GEBP kernel 的 SIMD 实现 29 图 3.15 GEBP kernel 的汇编流水 29 图 3.16 基于 GEPB 的 GEPP 30 图 3.17 基于 GEPB 的 GEPP 的数据搬移 32 图 3.18 GEPB 的矩阵 A 和 B 的封装 32 图 3.19 GEPB kernel 的 SIMD 实现 33 图 3.20 基于 GEPB 的 GEMP 34 图 3.21 基于 GEBP 的 GEPM 36 图 3.22 C6678 单核 GEMM 性能 38 图 4.1 SYMM 的 PP 分块方式 41 图 4.2 SYMM 中矩阵 A 的数据访问 41 图 4.3 SYMM 的基本算法描述 42 图 4.4 SYMM 完整的 PP 对矩阵 A 的数据访问 42 图 4.5 SYMM 中对矩阵 A 的数据处理 42 图 4.6 基于 PP 的 SYMM 算法设计 43 第 IV 页 图 4.7 SYRK 的基本算法描述 44 图 4.8 SYRK 中矩阵 C 的更新 45 图 4.9 SYRK 的 BP kernel 描述 45 图 4.10 基于 PP 的 SYRK 算法设计 46 图 4.11 SYR2K 的算法设计 47 图 4.12 TRMM 的基本算法描述 48 图 4.13 TRMM 的 PP 分块 48 图 4.14 TRMM 的 BP kernel 描述 49 图 4.15 基于 PP 的 TRMM 算法设计 49 图 4.16 C6678 单核 BLAS3 性能 51 图 5.1 GEMM 的多核设计 54 图 5.2 SYMM 的多核设计 56 图 5.3 SYRK 的多核设计 58 图 5.4 SYRK 的多核

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档