中国科学院知识创新工程重大项目高性能通用CPU芯片研制可行性11.PPTVIP

下载本文档

0
0
约9.29千字
约 73页
2025-12-10 发布于浙江
举报
版权申诉

中国科学院知识创新工程重大项目高性能通用CPU芯片研制可行性11.PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

*结构设计研究方法两个流程基于C模拟器的验证和评估基于FPGA的验证和评估两个角度工作负载分析处理器瓶颈分析*C模拟器Cycle-by-cycle精确每秒可模拟约100k拍全系统模拟，运行实际操作系统，模拟串口，内存，磁盘等外设。调试，数据收集能力和灵活度不断提高详细的数据统计重要的整体行为特性：IPC，cache失效率，分支预测失效率等指令相关统计：每条指令在各流水级花费的拍数，遇到的失效数等*C模拟器（续）专用的AMD64机群，大量使用批处理和自制脚本分析数据发展方向—能够方便地在合理时间内完成比较全面的评估：改善代码可维护性提高运行速度增加功耗分析等功能快速原型评估支持：更高层的模拟器*FPGA比C模拟器快30x以上，潜力还很大和最终系统更接近，可以运行更大的数据集更多的应用FPGA用于性能分析：FPGA和最终系统的差别在于接口时序大不相同可以插入逻辑模拟最终系统的接口时序可以加入更多的硬件支持来帮助性能分析：如更多的性能计数器，tracebuffer等*FPGA模拟的精确度延迟read(cycle)Write(cycle)Godson-2B26.0037.8835,4625.9737.9832,4525.6537.77带宽CopyScaleAddTriadGodson-2B71.8870.0075.1276.0935,4671.770.376.277.232,4573.4672.277.9579.19SPECCPU2000test数据集误差：整数平均：0.045%浮点平均：2%.*SpecCPU2000性能比较（test输入集，运行时间，使用FPGA得出）*工作负载分析基准程序SPECCPU2000,mediabench,dhryd/whetd,stream等分析工具模拟器Performancecounter:perfctr,PAPI,pfmon，Vtune等二进制工具,类似MIPS的pixie,Alpha的atom分析角度：(随时间变化的)各种特性，热点基本块分析，编译优化等*处理器瓶颈分析理想上限分析专题研究*几个例子访存子系统性能分析Load猜测流水线中的IPC分布Storemiss优化*访存子系统性能分析目标系统:Godson-2B测量度量:延迟带宽*延迟调查分析揭露了以下问题:北桥花费过多时间访问sdram：片外13~15总线周期出第一个数Godson-2B’s不流水的接口比RM7K多花5-6个总线周期总线利用率很低(1/8)由于没有二级cache，godson2B对访存延迟非常敏感*不同访存延迟下Godson2B的性能*带宽标准的stream带宽不是很理想：91MB/sat100x2MHz1/8of峰值总线带宽(100x8=800MB/s)原因延迟过长不流水的接口Sysad总线协议开销较大*Executiontimebreakdown*片外二级cache的性能*应对措施增加流水读接口支持增加片外二级cache支持在C模拟器中实现访存控制器，评估各种实现，包括访存调度，访存策略，片上控制器等寻求二级cache的替代方案启动北桥设计*Load猜测－现象数组拷贝汇编码:433e58: lw $v0,0($a1)433e5c: addiu $a2,$a2,-1433e60: addiu $a1,$a1,4433e64: sw $v0,0($v1)433e68: bgez $a2,433e58433e6c: addiu $v1,$v1,4在没有猜测的情况下，每个lw都隐式地依赖上一个循环的sw，导致代码IPC很低Lw-sw-lw-sw…*Load猜测-更多的观察Load被前面的store延迟的现象非常普遍：~30%一个被延迟的load（发射后）至少需要5拍才能写回，30%将使得平均load指令的延迟拉长到：3x0.7+5x0.3=3.6这恶化了原本就已经比较长的load延迟。*Load猜测-应对措施让准备好的load直接写回，不考虑前面是否还有为解决的store,然后检测发生相关的情况，利用例外机制取消错误的猜测—极小的硬件代价*Load猜测-效果对于上述数组拷贝代码，load猜测后硬件看起来就像是