存储墙(storage wall).docVIP

下载本文档

264
0
约1.29万字
约 24页
2018-02-28 发布于江西
举报
版权申诉

存储墙(storage wall).doc

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

存储墙(storage wall)

存储墙问题 ? 处理器的时钟频率和性能以超乎想象的速度增长；但是主存的访问速度（主要是DRAM）的增长却要缓慢的多；虽然Cache和预取能够对减少平均访存时间有所帮助，但仍然不能从根本上解决问题[1][2]。 ?处理器和存储器之间的鸿沟越来越大，下一代高性能计算机系统必须突破存储墙问题（momory wall）。计算，存储，I/O的速度越来越不匹配，平衡体系结构的设计越来越困难。微处理器速度增长的速度远远超过了了DRAM增长的速度。造成这种正常不平衡的原因是多方面的。其中最主要的原因是半导体工业界划分成了两个阵营：微处理器和存储器，并各自为阵。首先需要说的是，针对不同器件的需要半导体生产线被进行裁减和配置。针对微处理器的生产线强调提供更快的晶体管来制造更快的逻辑、更多的金属布线层来增加通讯和减小功耗。与此不同的是，针对DRAM的生产线强调更多的多晶硅（polysilicon）层来获得更小的DARM单元面积从而增大DRAM容量和更小的漏电流来减少DRAM刷新时间。不同的芯片也意味着不同的封装工艺，微处理器要求昂贵的封装来增加散热（通用CPU功耗已达5～100Watt），还要提供成百上千的引脚来增加与外存的连接带宽。但是DRAM的封装却往往采用便宜的方式，主要原因是其功耗较低（1Watt）引脚也大多只有几十个。不同的封装意味着计算机系统设计中存储芯片的扩展数目可以与芯片的扩展数目无关。由于工业界分裂成了两大阵营：处理器生产商和芯片生产商，必然带来一些弊端。例如当前主流的商用微处理器主频已达3GHz以上，存储总线主频仅400MHz；处理器速度每年增长60%，存储器存取延迟每年仅改善7%。可见，虽然两方都还有可以挖掘的潜力，处理器性能的上升空间远远大于DRAM。由通信带宽和延迟构成的“存储墙（Memory wall）”成为提高系统性能的最大障碍，大量的结构复杂性花在了解决数据访问延迟问题上，如图[3]所示 ? 由于存储器的访问延迟不断加大（相对于处理器的频率而言），片上存储器的作用显得更为重要，但是其限制也更为明显。由于存储墙问题的存在，增加处理器和存储器间的“有效”带宽显得及其重要，“有效”性强调的是供给处理器数据的实际带宽而不仅仅是峰值带宽。现在一些主要的缓解存储墙问题的方法包括[4]： l???????? 更宽更快的片外存储带宽，实际上，带宽就是每秒钟能够传输的数据位总和。因此最自然也是最经典的提高存储带宽的方法就是提高存储器时钟频率或者增加总线宽度。但是对于传统DRAM来说，这种方法已经接近其物理极限。因为提高时钟频率将会对整个系统时钟提出更苛刻的要求，不仅芯片面临高频的种种问题，PCB版的设计和实现技术也必须有所突破。而增加总线宽度将会大幅增加芯片引脚数目、IO功耗，给封装和PCB版带来挑战。虽然现在芯片引脚数目已经有较大的增长，但是功耗、可靠性和成本等因素将使得引脚的增加变得越来困难。最近，新的存储系统接口例如Rambus(RDRAM)和SLDRAM号称可以将片外存储带宽提高到数个GB/S的水平。另外一个传统提高带宽的方法是采用交叉存储技术，但是这将会带来扩展成本和扩展性的问题。因此解决存储墙问题最重要的不是如何采用每一代最先进的技术提供最大的带宽，而是如何有效的“划算”的提供足够的带宽。 l???????? 更大的片上Cache 在当代微处理器中，通过使用Cache已经避免了大量的存储延迟，许多先进的技术也帮助消除或隐藏一小部分的存储延迟。例如，乱序执行、预取、非阻塞Cache、写缓存和流水的系统总线等。然而，程序的第一次使用或循环的第一次访问将不可避免带来Cache不命中，从而导致流水线停顿。Cache的某一行数据常常在被访问之前就被别的数据替换了。对于空间局部性较好的应用，解决访存延迟问题可以通过对内存地址的预取来实现。这种方法对于像路由表更新这样的应用非常有效，但对于访存行为不规则的应用，由于经常预取的是不被马上使用的数据，可能反而会降低系统的存储带宽。通过网络访问远程处理器节点局部存储器上的数据将导致更大的延迟。而且，这样的远程存储访问延迟通常是不可预测的，使得一些填充流水线延迟槽的技术不再有效。例如，在SGI Origin 2000分布共享存储系统中，一级 Cache不命中的访问延迟为11个处理器周期；二级 Cache 不命中的延迟为60个周期；远程存储访问不命中的延迟达到180个周期。而且增加Cache容量将会大量增加处理器规模，增加功耗和成本。 l???????? 动态访问调度这种方法通过将数据组织成流最大化存储器性能（例如，信号/图像处理器，多媒体编解码器等）。这种方法基于访问的规则性，通过调度存储访问请求的顺序减少存储器访问的随机性，对于绝大多数DRAM来说成块访问或连续访问的带宽大大高于单个数