- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
*结构设计研究方法两个流程基于C模拟器的验证和评估基于FPGA的验证和评估两个角度工作负载分析处理器瓶颈分析*C模拟器Cycle-by-cycle精确每秒可模拟约100k拍全系统模拟,运行实际操作系统,模拟串口,内存,磁盘等外设。调试,数据收集能力和灵活度不断提高详细的数据统计重要的整体行为特性:IPC,cache失效率,分支预测失效率等指令相关统计:每条指令在各流水级花费的拍数,遇到的失效数等*C模拟器(续)专用的AMD64机群,大量使用批处理和自制脚本分析数据发展方向—能够方便地在合理时间内完成比较全面的评估:改善代码可维护性提高运行速度增加功耗分析等功能快速原型评估支持:更高层的模拟器*FPGA比C模拟器快30x以上,潜力还很大和最终系统更接近,可以运行更大的数据集更多的应用FPGA用于性能分析:FPGA和最终系统的差别在于接口时序大不相同可以插入逻辑模拟最终系统的接口时序可以加入更多的硬件支持来帮助性能分析:如更多的性能计数器,tracebuffer等*FPGA模拟的精确度延迟read(cycle)Write(cycle)Godson-2B26.0037.8835,4625.9737.9832,4525.6537.77带宽CopyScaleAddTriadGodson-2B71.8870.0075.1276.0935,4671.770.376.277.232,4573.4672.277.9579.19SPECCPU2000test数据集误差:整数平均:0.045%浮点平均:2%.*SpecCPU2000性能比较(test输入集,运行时间,使用FPGA得出)*工作负载分析基准程序SPECCPU2000,mediabench,dhryd/whetd,stream等分析工具模拟器Performancecounter:perfctr,PAPI,pfmon,Vtune等二进制工具,类似MIPS的pixie,Alpha的atom分析角度:(随时间变化的)各种特性,热点基本块分析,编译优化等*处理器瓶颈分析理想上限分析专题研究*几个例子访存子系统性能分析Load猜测流水线中的IPC分布Storemiss优化*访存子系统性能分析目标系统:Godson-2B测量度量:延迟带宽*延迟调查分析揭露了以下问题:北桥花费过多时间访问sdram:片外13~15总线周期出第一个数Godson-2B’s不流水的接口比RM7K多花5-6个总线周期总线利用率很低(1/8)由于没有二级cache,godson2B对访存延迟非常敏感*不同访存延迟下Godson2B的性能*带宽标准的stream带宽不是很理想:91MB/sat100x2MHz1/8of峰值总线带宽(100x8=800MB/s)原因延迟过长不流水的接口Sysad总线协议开销较大*Executiontimebreakdown*片外二级cache的性能*应对措施增加流水读接口支持增加片外二级cache支持在C模拟器中实现访存控制器,评估各种实现,包括访存调度,访存策略,片上控制器等寻求二级cache的替代方案启动北桥设计*Load猜测-现象数组拷贝汇编码:433e58: lw $v0,0($a1)433e5c: addiu $a2,$a2,-1433e60: addiu $a1,$a1,4433e64: sw $v0,0($v1)433e68: bgez $a2,433e58433e6c: addiu $v1,$v1,4在没有猜测的情况下,每个lw都隐式地依赖上一个循环的sw,导致代码IPC很低Lw-sw-lw-sw…*Load猜测-更多的观察Load被前面的store延迟的现象非常普遍:~30%一个被延迟的load(发射后)至少需要5拍才能写回,30%将使得平均load指令的延迟拉长到:3x0.7+5x0.3=3.6这恶化了原本就已经比较长的load延迟。*Load猜测-应对措施让准备好的load直接写回,不考虑前面是否还有为解决的store,然后检测发生相关的情况,利用例外机制取消错误的猜测—极小的硬件代价*Load猜测-效果对于上述数组拷贝代码,load猜测后硬件看起来就像是
您可能关注的文档
- 乙方连带保证人11.PPT
- 人才与成才创业与就业1.ppt
- 中国林业出版社1.ppt
- 中医经穴理论及养生康复1.PPT
- 中华人民共和国婚姻法11.ppt
- 中医专家系统将模拟医生的思路进行辨证施治从知识11.ppt
- 北师大版高中英语必修一《Lesson 4 Superhero》reading课件 (共17张PPT).ppt
- 教科版八年级物理下册第十章第一节10.1在流体中运动教学课件共15张PPT含视频.ppt
- 分析·整合·渐进:单元统整教学的实施要点课件二年级上册语文部编版.pptx
- 分形图形生成的方法和表现硕士学位论文.pdf
- 华东师大版历史高一上册.3.8《古代罗马政治制度》课件(33张)(共33张PPT).ppt
- 四年级下数学课件-复式分段(青岛版).ppt
- 四年级上册数学课件 - 九、总复习 人教新课标(2014)(共58张PPT).ppt
- 华东师大版高中历史高一下册第6课《大一统中央集权国家的形成》优质课件(39张)(共39张PPT).ppt
- 四年级上册数学课件- 第四章1.三位数乘两位数笔算 人教新课标(2014秋) (共12张PPT).ppt
- 北师大版高中历史必修二6.18《罗斯福新政》课件(共27张PPT).ppt
- 提高ZrO_2-Y_2O_3(YSZ)材料离子电导率的研究进展.pdf
- 提高W18Cr4V钢齿轮冷挤压模使用寿命的试验研究.pdf
- 日照银行2026届校园招聘考试参考试题及答案解析.docx
- 2025广东南粤银行东莞分行招聘笔试备考题库及答案解析.docx
原创力文档


文档评论(0)