一种面向多核DSP的小量紧耦合快速共享数据池.docVIP

一种面向多核DSP的小量紧耦合快速共享数据池.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种面向多核DSP的小量紧耦合快速共享数据池

一种面向多核DSP的小容量紧耦合快速共享数据池 摘要 本文结合片上便笺式存储器(SPM)的结构特点,提出了一种面向异构多核DSP的新型小容量紧耦合共享存储结构——快速共享数据池(FSDP)。FSDP在存储层次上与一级Cache平行,可以被访存指令直接访问,采用多体并行的结构、交叉访问模式和基于硬件信号灯的自动同步机制,支持多个DSP核的并行访问与快速的核间数据交换,两核之间交换单个数据只需4拍。本文构建了FSDP的模拟模型,并进行了RTL级设计实现和分析。多种典型测试程序的验证表明,FSDP对于DSP核间细粒度共享数据的传输具有很高的效率,相比同类的VS-SPM结构能够将程序性能提高37%,与传统的共享数据Cache结合使用能够将异构多核DSP的性能提高13%。 关键词 便笺存储器;共享存储;多核DSP;释放一致性 中图法分类号 TP333 1. 引言 多核数字信号处理器(DSP)是近年来针对高性能嵌入式应用而出现的一类多核微处理器(CMP)。相比传统的单核处理器,多核处理器在提高并行处理能力的同时也需要更高的存储带宽和更灵活的存储结构[1]。便笺存储器(SPM)是一种小容量的片上存储器,具有全局地址空间,可以由访存指令直接访问[2]。SPM仅仅包含存储阵列和译码逻辑,没有Cache那样复杂的Tag比较逻辑和替换策略,在电路面积和功耗方面比Cache更具优势。另外,SPM采用固定的存储映射方式,没有访问失效问题,能够保证单拍(或确定节拍)的访问时间,便于用户显式地管理和调度其中的数据,适合嵌入式实时计算的特点[1][3][4] [5]。 根据多核DSP的应用需求,并结合SPM的结构特征和共享存储的编程优势,本文提出了一种面向多核DSP的快速共享数据缓冲池FSDP,对其进行了设计实现和模拟分析。分析结果表明,FSDP对于DSP核间细粒度共享数据(例如某些全局变量、公共系数矩阵等)的传输具有很高的效率,相比类似的VS-SPM结构能够将程序性能提高37%,与传统的共享数据Cache结合使用能够将异构多核DSP的性能提高13%。 本文的组织结构如下。第2部分介绍了国内外的研究现状,第3部分介绍了异构多核DSP的总体结构原型,第4部分详细介绍了FSDP的组成结构、访问方法和同步机制。第5部分介绍了设计优化方法,构建了关于最佳单体容量的分析模型。第6部分介绍了设计实现和模拟分析结果。最后一部分总结了全文。 2. 相关工作 近年来,国外学者在SPM领域已经展开了积极的研究。Banakar等人针对计算密集型应用,使用专用工具(CACTI)计算出了各种容量的SPM和Cache的面积和功耗,使用Trace模拟器进行了性能对比。结果表明,同样容量的SPM的平均功耗比Cache降低了40%[8]。Issenin等人也认为,如果通过数据重用技术,将经常使用的数据放在小容量的SPM中,用片内局部传输代替片外全局传输,不但可以节省约一半的功耗,而且大大提高了传输效率[9]。Kandemir和Suhendra等人基于一种虚拟共享便笺式存储器(VS-SPM)的多核处理器原型[10],如图1所示。通过任务映射、调度、SPM划分和数据分配等编译优化算法,提高片内数据重用性,减少不必要的片外访存,其宣称的实验结果能够把嵌入式应用的性能提高80%。 这些已有的工作主要是从软件的角度研究如何优化SPM的存储分配与管理,而且大部分是基于单核处理器的研究,对于多核处理器环境下SPM的体系结构研究还不够充分。特别在共享存储的方式下,必须根据实际应用中核间数据共享与传输的特点,研究速度快、结构灵活的SPM存储结构。本文提出的FSDP采用多体并行和交叉访问的方式,访问延迟小,存取速度快;提供了硬件信号灯和软件查询两种同步机制,同步开销低,编程使用灵活。 3. 异构多核DSP总体结构 图1 异构多核DSP“SDSP”的总体结构 异构多核DSP“SDSP”的总体结构如图1所示,它由四个精简的32位浮点DSP核与一个32位的RISC核构成。DSP核采用课题组自行研制的32位高性能浮点DSP“YHFT-DSP700”的精简内核[11]。该DSP内核主频300MHz,8流出超长指令字(VLIW)结构。四个DSP内核共享存储空间。每个DSP核具有私有的一级数据Cache(L1D)和一级指令Cache(L1P),共享二级Cache/SRAM(L2)和FSDP。FSDP与L1D处于同一个存储层次,具有不可Cache的全局存储空间,可以被四个DSP核的访存指令直接访问。 RISC核采用开放体系结构与源码的LEON处理器。LEON是一款高度可配置的32位通用RISC处理器,兼容SPARC V8指令集,采用7级整数流水线,指令Cache和数据Cache分离。片上集成了AMBA 2.0总线,挂接

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档