- 45
- 0
- 约7.82万字
- 约 79页
- 2019-05-11 发布于上海
- 举报
国防
国防科学技术大学研究生院工程硕士学位论文
第 I
第 II 页
万方数据
4.1.2 SYMM 的算法设计与实现 42
SYRK 的实现 44
SYRK 的算法分析 44
4.2.2 SYRK 的算法设计与实现 45
SYR2K 的实现 47
SYR2K 的算法分析 47
4.3.2 SYR2K 的算法设计与实现 48
TRMM 的实现 48
TRMM 的算法分析 48
4.4.2 TRMM 的算法设计与实现 49
4.5 性能测试与分析 50
4.6 本章小结 51
第五章 BLAS3 的多核设计与实现 53
5.1 GEMM 的并行性分析 53
5.2 GEMM 的多核设计与实现 54
5.3 SYMM 的多核设计与实现 56
5.4 SYRK 和 SYR2K 的多核设计与实现 58
5.5 TRMM 的多核设计与实现 60
5.6 性能测试与分析 61
5.6.1 GEMM 的多核性能测试与分析 61
5.6.2 BLAS3 的多核性能测试与分析 62
5.7 本章小结 63
结 束 语 65
致 谢 67
参考文献 68
作者在学期间取得的学术成果 73
第 II
第 III 页
万方数据
表 目 录
表 2.1 BLAS 中不同运算的开销 5
表 3.1 GEMM 的术语释义 14
表 4.1 BLAS3 的例程库 40
万方数据
万方数据
图 目 录
图 2.1 TMS320C6678 结构框图 6
图 2.2 C6678 CorePac 功能框图 7
图 2.3 C66x CorePac 功能单元 8
图 2.4 C6678 的层级存储结构图 10
图 3.1 GEMM 的分块运算 14
图 3.2 GEMM 的分块实现方案 15
图 3.3 对应图 3.2 的三重循环算法实现 15
图 3.4 基于 Cache 的多级存储模型 16
图 3.5 基于 Cache 级的 GEBP 17
图 3.6 基于 Register 级的 GEBP kernel 18
图 3.7 基于 Cache 级的 GEPB 20
图 3.8 基于 Register 级的 GEPB kernel 21
图 3.9 基于 Cache 级的 GEPDOT 23
图 3.10 基于 GEBP 的 GEPP 25
图 3.11 基于 GEBP 的 GEPP 的数据搬移 27
图 3.12 GEBP 的矩阵 A 和 B 的封装 28
图 3.13 Cache 的增量访存方法 28
图 3.14 GEBP kernel 的 SIMD 实现 29
图 3.15 GEBP kernel 的汇编流水 29
图 3.16 基于 GEPB 的 GEPP 30
图 3.17 基于 GEPB 的 GEPP 的数据搬移 32
图 3.18 GEPB 的矩阵 A 和 B 的封装 32
图 3.19 GEPB kernel 的 SIMD 实现 33
图 3.20 基于 GEPB 的 GEMP 34
图 3.21 基于 GEBP 的 GEPM 36
图 3.22 C6678 单核 GEMM 性能 38
图 4.1 SYMM 的 PP 分块方式 41
图 4.2 SYMM 中矩阵 A 的数据访问 41
图 4.3 SYMM 的基本算法描述 42
图 4.4 SYMM 完整的 PP 对矩阵 A 的数据访问 42
图 4.5 SYMM 中对矩阵 A 的数据处理 42
图 4.6 基于 PP 的 SYMM 算法设计 43
第 IV 页
图 4.7 SYRK 的基本算法描述 44
图 4.8 SYRK 中矩阵 C 的更新 45
图 4.9 SYRK 的 BP kernel 描述 45
图 4.10 基于 PP 的 SYRK 算法设计 46
图 4.11 SYR2K 的算法设计 47
图 4.12 TRMM 的基本算法描述 48
图 4.13 TRMM 的 PP 分块 48
图 4.14 TRMM 的 BP kernel 描述 49
图 4.15 基于 PP 的 TRMM 算法设计 49
图 4.16 C6678 单核 BLAS3 性能 51
图 5.1 GEMM 的多核设计 54
图 5.2 SYMM 的多核设计 56
图 5.3 SYRK 的多核设计 58
图 5.4 SYRK 的多核
您可能关注的文档
- 面向个性化学习的课件系统的研究与实现-软件工程专业毕业论文.docx
- 面向大数据的传输光纤设计和分析-电子与通信工程专业毕业论文.docx
- 考虑偏差因素的集成电路软错误分析方法研究-仪器仪表工程专业毕业论文.docx
- 面向电力系统的图形编辑器的设计与实现-软件工程专业毕业论文.docx
- 美国多元文化教师教育分析-比较教育学专业毕业论文.docx
- 面向HEVC视频编码标准的视频质量评价分析与研究-信息与通信工程专业毕业论文.docx
- 门式刚架转角节点性能分析-结构工程专业毕业论文.docx
- 马血中SOD和凝血酶的提取及膜浓缩工艺研究-食品科学专业毕业论文.docx
- 面向HL7的临床诊断工作流模型的设计与实现-计算机科学与技术专业毕业论文.docx
- 面向农田监测应用的WSN节点软件系统设计及LQI测距研究-信号与信息处理专业毕业论文.docx
- 2026重庆万州区长滩镇非全日制公益性岗位工作人员招聘1人备考题库及一套参考答案详解.docx
- 2026重庆一中寄宿学校融媒体中心招聘1人备考题库(含答案详解).docx
- 外固定架联合双层VSD治疗对开放性跟骨骨折愈合的影响.docx
- 2026重庆一中寄宿学校融媒体中心招聘1人备考题库附答案详解.docx
- 2026重庆一中寄宿学校融媒体中心招聘1人备考题库精编答案详解.docx
- 2026重庆万州区长滩镇非全日制公益性岗位工作人员招聘1人备考题库及1套完整答案详解.docx
- 2026重庆万州区长滩镇非全日制公益性岗位工作人员招聘1人备考题库及1套参考答案详解.docx
- 2026重庆一中寄宿学校融媒体中心招聘1人备考题库带答案详解.docx
- 2026重庆一中寄宿学校融媒体中心招聘1人备考题库含答案详解.docx
- 2026重庆一中寄宿学校融媒体中心招聘1人备考题库完整参考答案详解.docx
原创力文档

文档评论(0)