C66系列DSP程序优化说明讲解.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
66AK DSP程序优化说明此文档不介绍具体技术细节,相关技术细节,还望仔细理解官方文档。如有疑问:请加QQ156898965平台配置66ak存储资源结构:存储资源包括DDRA、DDRB,共享内存MSMC,每个核的局部L2、L1P、L1D。由于整个芯片的地址空间是物理统一编址的。L1,L2运行时钟为主频,常规64系列L2运行时钟为主频一半。MSMSRAM 运行在主频。DSP core直接读取L1,L2,通过MSMC读取SRAM,外部DDRA。L1P可配置程序缓存;L1D可配置数据一级缓存,2-WayCache;L2可配置数据二级缓存,4-WayCache。缓存区域从高地址开始分配。如下图:程序数据存放区域分类程序存放区域:用于存放所有可以执行的代码和常量,程序运行过程中,不会发生改变;数据存放区域:用于全局变量和局部变量保留的空间,程序运行过程中会发生改变;堆栈存放区域:为系统堆栈保留的空间,用于和函数传递变量或为局部变量分配空间。若因意外改变,会导致程序跑飞。平台配置通过新建或修改Platform文件来实现存储资源定义,Cache大小分配,及程序数据存放区域指定。以66ak12为例,缓存区域L1P,L1D全部设置为缓存,L2缓存大小设置为256k。程序存放于DDRB,数据存放于L2,堆栈存放于L2进行。配置过程如下:Debug模式下,选择tools - RTSC Tools?- Platform - New,根据自己的需要选择Platform保存的路径以及对应的芯片,Next,填入所需要的各种空间的大小和起始位置。?平台调用及验证调用Platform:在工程查看窗口,相应工程上右键Properties,选择General - RTSC,找到最后一项,Other Repositories,点击Add,路径选择上一步保存的路径,需要注意选择XDCtools版本,然后就能找到自己新建的Platform验证:查看通过自动生成CMD文件查看,如下图所示,L2SRAM大小为768K。详细程序数据存放位置通过map文件查看。程序调试过程中,通过ROV也能查看堆栈大小。注意事项多核同时运行时,必须保证数据段,堆栈存放位置不重叠。多核共享变量除外。多核共用一个程序,程序区域位置可重叠,多核采用不同程序,程序存放区域也不能重叠。未在平台配置文件中定义的区域,如不定义DDRA空间,也能通过绝对地址访问。CACHE使用66ak DSPcore cache简要描述。Cache是介于DSPCORE与MCMSRAM和外部DDR间高速缓冲器,解决系统中数据读写速度不匹配及读写方式不一样等问题。针对读,L1,L2差不多,都是从cache里面找,找不到再去下一级存储区域读入。数据读时,主要作用如下:减少重复读时间:刚刚使用的数据,很近的将来也可能会被用到。如fir滤波的参数。减少连续读时间:某地址单元的数据被用到,相邻地址也可能会被用到。如fir滤波的输入数据。针对写,L1 没有写缓存,L2有写缓存:L1 cache缓存里面存在时,写到L1;L1缓存里面没,立即写入到L2,CPU不等待,硬件自动完成。L2 cache 不主动往下一级写结果,只有当缓存区满或用户指定是再写回下一级存储区域。Cache配置基于sysbios配置参见上一节平台配置。裸机情况下配置,参看相应的demo演示程序Cache影响运算速度测试以DDRA区域,长度为32K,数据类型分别为uint8,uint16,uint32,float,double进行加法,乘法测试。Cache配置分别为L1D 32K、L2 512K,L1D 32K、L2 0K测试结果如下表:Cache数据类型时钟周期每点平均周期L2 512KL1 32k求和uint8397141.211975uint161403474.283051uint3242075212.84033float2044536.23941doubl70032求积uint8735462.244446uint161556944.751404uint3237510911.44742float2364167.214844doubl22583L2 0KL1 32k求和uint8953152.908783uint162800988.547913uint323171629.679016float3171749.679382doubl10059求积uin785706uint161500564.579346uint322859678.72702floa9527doubl95081从上表可看成:不开启L2 cache,平均耗时会增加。16位操作改变最

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档