- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
FDK算法的一个数字信号处理器的优化实施
一个基于数字信号处理的FDK算法的优化实施
梁文轩,张辉,胡广书
(生物医学工程系,清华大学,北京100084,中国)
摘要
本文介绍了一个单一固定点的TMS320C6455数字信号处理器(DSP)的FDK算法的优化实施。软件流水线操作和数据传输的适当配置,在42秒左右就能从360°较准确地重建2563卷 已经获得在医疗和工业应用的普及。算法已广泛应用于实际的重建,由于其易于实施和小锥角的可接受的结果。然而,决定了FDK的复杂性,其中是推算数,并在重建卷的体素的数量。密集型计算和所涉及的数据量巨大,使成像系统的计算能力有苛刻的要求。如何充分利用新的并行处理器,如图形处理单元,处理器,在加速三维重建自然成为近年来的一个热门话题。许多实验已经开展,并展示了这些平台计算能力的应用前景。
现代高性能数字信号处理器(DSPs)的潜力还远未得到充分利用。早在1997年,德州仪器(TI)推出的TMS320C6000平台的VelociTI,一个先进的超长指令字(VLIW)结构。VelociTI保留的VLIW(例如,并行)的优势,并改善其不足之处(例如,减少代码大小)。因此,C6000平台实际上已经超越了传统观念的DSP,因为它没有集成专门乘加单元,但部署八个平行的职能单位。今天的C6000系列的核心(CPU)的已演变成的的C64x+核心(定点)和C67x+核心(浮点)。此外,总线带宽,容量和灵活性的片上内存,及多样性和集成I/ O接口和外围设备的能力是不断发展的。早期的实验,包括在医疗成像应用的DSP数字放射成像(DR)和超声检查,如快速,2- D锐化掩模卷积,和2 - D FFT的一些核心例程映射。内里,卡尔德隆等人加速平行束CT重建在一个单一的TMS320C6416的DSP主要是通过减少CPU的摊位,由于缓存杂乱。另外,它没有考虑充分利用调制解调器的DSP电源问题。不存在其他的编程技术,保证性能高,是加快FDK算法在本帕德尔实验的关键。
1 平台的描述和算法的映射模型
德州仪器框图TMS320C6455 DSP(C6455)如图1所示。,它的C64x+ CPU功能2数据路径,每4个功能单位和32个32位寄存器组成的寄存器文件。M单元是能够进行乘法运算。L和S为单位,能够容纳各种算术和逻辑运算,D单元是能够加载和存储数据,以及常见的算术运算。作为一个多位操作数(例如,4个8位操作数或2个16位操作数)的所有四个单位的支持数据级并行,即一个字类型的操作数(32位)和操作同时执行分词。先进的指令集的更多细节可以在文献[10]中发现。
图 1 对于C6455框图中,SCR是中心资源的缺陷,这是EDMA的
一个组成部分,具有控制与被控制功能
C6455有一个32 KB 2路设置关联的L1数据高速缓存,32 KB直接映射L1程序快取,和一个大小为2 MB的L2, 256 KB L2存储器可以配置为4路集相联高速缓存。C6455亦为EDMA(增强型DMA控制器),允许各种灵活的数据传输模式。这C6455还包含一个DDR2 DSP控制器接口,外部SDRAM器件直通。
为了实现对DSP的高性能,算法应有效地映射到底层的处理器架构,由几个编程技术,Managuli和Kim 总结了五个技术,其中引用了三个在这里:
(a)明智地使用说明利用多个功能单元和数据的并行性:所以,仔细选择要求办理的,所有的功能单元在忙着和利用分割操作来提高性能。
(b)循环展开和软件流水:由于硬件流水线,大多数汇编指令单周期吞吐量(即另一个相同的指令可以在下面的CPU周期发出),虽然一些指令需要多个周期才能完成(这是定义为延迟)。克服多周期的延迟,并利用其一个周期吞吐量的循环展开来计算需要多组数据,在一个循环和软件流水线重叠连续循环。
(c)使用可编程DMA控制器:由于访问非缓存的数据,以减少CPU周期,DMA之间传输数据更快的片上存储器和较慢的片外存储器与CPU同时进行,尤其是当涉及大量的数据。DMA(也通过在此实施情况)的典型用法称为双缓冲是在图2所示。
图 2 L2 SRAM中的双缓冲。当CPU使用一个缓冲对(例如,
缓冲一双)从缓冲区读取数据,数据处理和写输出缓冲区的结
果,EDMA传输数据之间的缓冲对(即,缓冲对B)和外部的
DDR2 SDRAM填写的缓冲液B新的数据和输出缓冲器B。
结果显示,在CPU和EDMA都完成了对缓冲区的切换,重复此程序处理和交换。
2 实施细则
FDK算法[1]方程给出的方案架构,以方便下面的描述。
FDK第一部分是前加权和斜坡过滤的2 - D投影数据为
(1)
其中R是源的轨迹半径,a和b是虚拟平板探测器上的坐标。在这里是坡道过滤器的空间域卷积函数。
(2)
然后预加权和过滤投影数据重建卷回预计为,
(3)
您可能关注的文档
- ARM技术--嵌入式系统.ppt
- A组-两级双机收发性能1-Indico.ppt
- Arria10收发器PHY用户指南-Altera.PDF
- Black'n'WoodNixieTubeClock辉光管时钟-Tube-Tester.PDF
- App管理平台-软体功能操作_Angel_20121116.pdf.PDF
- BM-24A电池组监测仪-大连微拓电气有限公司主页.doc
- BL8025T精度实时时钟芯片-上海贝岭股份有限公司.PDF
- AgilentInfinityIIQtofG6545Onsite-实验室与设备管理处.PDF
- BXCD-1W-哈尔滨通宇电器有限公司.doc
- B包东营港经济开发区环境自动监测系统(站)配置-东营市政府采购网.doc
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
文档评论(0)