减少推测多线程回退的片上网络优化设计与研究-optimization design and research of on-chip network to reduce speculative multithreading rollback.docxVIP

下载本文档

2
0
约4.48万字
约 58页
2018-05-24 发布于上海
举报
版权申诉

减少推测多线程回退的片上网络优化设计与研究-optimization design and research of on-chip network to reduce speculative multithreading rollback.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

减少推测多线程回退的片上网络优化设计与研究-optimization design and research of on-chip network to reduce speculative multithreading rollback

表格1.1在计算机系统结构领域学术会议中发表的TLS相关论文的数量..63.1基于优先级的包仲裁策略........................293.2基于优先级的缓冲队列.........................314.1模拟环境配置参数............................404.2TLSRR系统中的线程回退率和头线程访存延迟41IX中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：签字日期：中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。□公开□保密年作者签名：导师签名：签字日期：签字日期：第1章绪论1.1研究背景1.1.1片上多核处理器的发展Intel公司的创始人之一GordonMoore于1965年指出，基于观察，在未来10年内，芯片上的晶体管数量的增长趋势为每12个月（1975年修正为18个月）翻一番，这就是今天为我们所知的摩尔定律。如图1.1所示，在过去的45年中，摩尔定律一直得到了验证和延续，并且预计在今后的十年内依然有效。Intel公司于2011年推出的ItaniumPoulson处理器采用了32纳米工艺，片上集成了31亿个晶体管。图1.1处理器晶体管数量的增长和摩尔定律在这种背景下，单个处理器芯片上可以放置的晶体管数量越来越多，晶体管的工艺尺寸也越来越小，使得芯片的功耗、线延迟等问题逐步凸显。在应用、工艺和结构等多方面因素的共同驱使下，片上多核处理器（ChipMultiprocessor,CMP）（K.Olukotunetal.,1996）开始涌现，并得到了迅速普及，目前已经成为服务器、桌面计算和嵌入式设备共同采用的解决方案。下面我们详细描述促使和推动CMP出现和普及的各方面因素。（1）程序的并行性现代计算机系统上运行的程序存在大量的内在并行性，程序的大部分可以被并行执行。因而，计算机可以通过开发程序的并行性来提高程序性能。程序的并行性存在于各个级别。其中一个极端是指令级并行性（InstructionLevelParallelism,ILP），这种并行性表现为原本顺序执行的多条程序指令，可以被并行执行并且正确性不受影响。程序并行性的另一个极端是任务级并行性（TaskLevelParallelism）。这种并行性可以通过在多任务操作系统中同时执行多个相互无关的程序来开发，它充分利用了系统的计算资源。而处于这两个极端之间的一种并行性是线程级并行性(ThreadLevelParal-lelism,TLP)，这种并行性的表现形式为，单个程序可以被划分为多个线程（进程），这些线程在原串行程序中是被顺序执行的，而他们之间存在可被并行化的机会。为了提取上述的各种并行性，通常需要在系统中采用专用的硬件和软件。例如，为了提取ILP，就需要跟踪大量的指令推测状态和指令间的交互信息，同时这些跟踪动作必须非常快速，因而，宽发射、乱序执行、激进的分支预测等指令动态调度机制等专用硬件和算法被用于提取ILP，这些机制是对程序员透明的；另一方面，为了提取任务级并行性，就需要操作系统为线程的创建和调度提供支持，如果线程之间共享数据，程序员则需要手动指定线程间的通信和同步，从而保证并行执行时的正确性。这些工作必须被小心处理，因而加重了程序员的负担。而提取TLP的难度则更大，该级别的并行粒度一般为由100至10000条动态指令组成的细粒度线程。与提取ILP类似，提取TLP需要使用大量的专用硬件来记录指令状态，这种硬件开销在传统处理器中是无法接受的。而如果使用软件方法，则面临着开销过大和编程较难等阻碍。但是随着处理器制造工艺的发展和硬件复杂度的增加，以对程序员透明的方式来提取TLP逐渐成为可能。同时，由于程序中存在的ILP是有限的，依靠传统超标量处理器来提取ILP从而提高程序性能的方法已经走到了尽头。为了保持处理器性能的可扩放性，必须设计适于开发TLP的处理器结构，而CMP正是能够实现该目标的理想平台。在CMP中，多个计算核心被放置在单个处理器芯片上，每个计算核心执行程序的一个线程。计算核心共享Cache和内存控制器等硬件资源，并且通过总线或者片