- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浮点矩阵相乘IP核并行改进的设计与实现
摘? 要: 基于Altera浮点 \o IP核 IP核实现 \o 浮点矩阵相乘 浮点矩阵相乘运算时,由于矩阵阶数的增大,造成消耗的器件资源虽增加但系统性能反而下降的问题,针对现有IP核存在数据加载不连贯、存储带宽不均匀的不足,提出采用并行化数据存储、依据查找表加载数据和处理数据的方式对IP核进行改进。然后将改进的浮点矩阵运算在FPGA中实现,经过Quartus、Matlab软件联合仿真并进行结果比对,其误差不超过万分之一,且节省了器件资源、提升了系统性能。仿真结果表明该设计可行,有利于提高诸多高性能领域浮点矩阵的运算速度。关键词: 浮点矩阵相乘; \o 嵌入式 嵌入式;IP核;现场可编程门阵列
??? 嵌入式计算作为新一代计算系统的高效运行方式,应用于多个高性能领域,如阵列信号处理、核武器模拟、计算流体动力学等。在这些科学计算中,需要大量的浮点矩阵运算。而目前已实现的浮点矩阵运算是直接使用VHDL语言编写的浮点矩阵相乘处理单元[1],其关键技术是乘累加单元的设计,这样设计的硬件,其性能依赖于设计者的编程水平。此外,FPGA厂商也推出了一定规模的浮点矩阵运算IP核[2],虽然此IP核应用了本厂家的器件,并经过专业调试和硬件实测,性能稳定且优于手写代码,但仍可对其进行改进,以进一步提高运算速度。1 Altera浮点矩阵相乘IP核原理?? ?Altera公司推出的浮点矩阵相乘IP核ALTFP_MATRIX_MULT,是在Quartus软件9.1版本以上的环境中使用,能够进行一定规模的浮点矩阵相乘运算,包含A、B矩阵数据输入,数据浮点乘加,数据缓存及相加输出四大部分。其中最能体现浮点计算性能的是浮点乘加部分,而周围的控制电路及输出则影响到系统的最高时钟频率,间接地影响系统整体性能。?? ?整个矩阵相乘电路原理是将输入的单路数据(A、B矩阵共用数据线),通过控制器产生A、B矩阵地址信号,控制着A矩阵数据输出和B矩阵数据输出,并将数据并行分段输出到浮点乘加模块进行乘加运算,之后串行输出到一个缓存器模块中,再以并行方式输出到浮点相加模块,最后获得计算结果。从其原理可以看出,在数据输入输出方面仍有许多可改进的地方。2 IP核存在的缺陷及改进2.1 存在缺陷?? ?(1)输入数据带宽的不均衡性。在矩阵A、B的数据输入时,Altera的IP核将A矩阵数据存于M144K的Block RAM中,而将B矩阵数据存于M9K的Block RAM中,导致IP核中A矩阵数据的带宽小于B矩阵数据的带宽,并需要一定数量的寄存器组使A矩阵数据带宽能够匹配于B矩阵数据带宽。由此可见,A、B矩阵数据的存储受到器件限制和存储约束,同时由于在浮点乘加模块的输入端(A、B矩阵数据)带宽不同,造成A矩阵数据的输入需要额外的处理时间。?? ?(2)加载数据的不连贯性。在矩阵数据加载时,IP核通过将数据分段成等分的几部分,用于向量相乘。由于矩阵A存储带宽窄需要4步寄存(由Blocks决定),在第3个周期时才加载数据B用于计算,送到一个FIFO中存储;在第6个时钟周期时加载矩阵A分段的第二部分进行各自的第二部分计算,最后当计算到第15个周期时,才可通过浮点相加,计算出矩阵C的第一个值,之后计算出矩阵C的其他值C11。从上述结构可见,在分段相乘之后,采用先对一个FIFO进行存储,存满后再对下一个数据FIFO进行存储,造成时间上浪费过多。2.2 设计改进?? ?鉴于上述缺陷,在输入A、B矩阵的存储方式上,进行串行输入到并行输入的改进,使得两个矩阵能同步输入到浮点乘加模块。在数据加载方式上,将A矩阵用3个周期加载完毕,再处理相乘运算;将分段相乘结果进行直接存储相加,获得C矩阵的第一个值,缩减运算时间。设计的改进框图如图1所示。
?? ?将A、B矩阵数据加载模块设计成同步加载的方式,即在loadaa为高电平时,对A的第一组数据进行初始化,加载到双口RAM模块存储;在loadbb为高电平时,加载B矩阵的数据,也进行双口RAM存储。然后依据ROM存储的地址信号表,在控制模块的控制下输出A、B矩阵地址相对应的数据,进行浮点乘加运算,之后串行缓存,并行输出到浮点相加模块,进行输出。计算时序如图2所示。?? ?在时序上要求初始化加载A矩阵的第一行数据A1、A2、A3之后,加载B矩阵的第一列数据,当分段E1加载后立即进行分段第一组数据相乘A1×E1。以此类推,当加载A的第二行数据时,即可立即与B矩阵的第一列数据相乘。总体而言,只需要在ROM模块中存储一定的地址信号,即可使浮点乘加模块的输入端具有并行连贯的数据输入,缩短了运算时间。3 浮点矩阵相乘实现3.1 模块总体实现?? ?按照上述改进方案,ROM地址表在控制模块的控制下产生
您可能关注的文档
最近下载
- 【GB_T50362-2022】 住宅性能评定标准.docx VIP
- 部编版语文五年级上册选择题专项复习训练练习共计100题后附答案解析.docx VIP
- 挡土墙、围墙施工方案.docx VIP
- 广东工业大学-运筹学-试卷+答案.pdf VIP
- GB_T 9711-2023石油天然气工业 管线输送系统用钢管.doc VIP
- 运筹学2025年广东工业大学章节答案.docx VIP
- 变更管理制度(通用8篇).pdf VIP
- 4.6 学会管理和控制自己 课件-2025-2026学年五年级科学上册教科版.pptx VIP
- 《归园田居(其一)》精品课件29张.pptx VIP
- 小学苏教版科学六年级上册知识点梳理及2025秋期末测试卷及答案.docx VIP
原创力文档


文档评论(0)