存储器存储系统的特性存储位置容量传送单元存取方法性能物理 .PPT

下载文档 降价啦

11
0
约6.76千字
约 70页
2017-08-04 发布于天津
举报
版权申诉
保障服务

存储器存储系统的特性存储位置容量传送单元存取方法性能物理 .PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

存储器存储系统的特性存储位置容量传送单元存取方法性能物理

* * * * * * * * * * * * * * * * * * 1.Intel的Cache进展问题解决方案首次采用该特征的处理器外部存储器比系统总线慢使用更快的存储器技术，增加外部Cache 386 增加的处理器速度导致外部总线成为Cache访问的瓶颈将外部Cache移到片内，以处理器相同的速度进行操作 486 由于片内空间的限制，片内Cache太小使用比主存更快的技术，增加外部L2级Cache 486 当指令预取器和执行单元同时需要访问Cache时出现了竞争。在此种情况下，指令预取器在执行单元访问数据时只能暂停形成分离的数据Cache和指令Cache Pentium 增加的处理器速度导致外部总线成为L2级Cache访问的瓶颈形成分离的后端总线，它比主（前端总线）外部总线运行速度快。BSB总线服务于L2 Cache Pentium Pro 将L2 Cache移到处理器芯片内 Pentium II 某些应用需要处理庞大的数据库，并且必须对大量数据进行快速的访问。片上Cache太小增加外部L3级Cache Pentium III ? 将L3 Cache移到片内 Pentium 4 2.Pentium 4架构图 3.Pentium 4的核处理器取指/译码单元从L2 cache中读取指令译码成微操作将微操作存进L1 cache 乱序执行逻辑调度微操作基于数据相关性和资源可用性可能需要推测执行执行单元执行微操作从L1 cache读取数据结果存入寄存器存储器子系统 L2 cache和系统总线 4.Pentium 4的设计理由在进入L1 cache前，将指令译码为类似微操作的RISC 微操作固定长度超标量流水和调度技术 Pentium的指令长且复杂通过独立于调度和流水线逻辑来译码，使性能提高 (详见第14章) 数据采用写回法可以配置为写直达 L1 cache由控制寄存器中的两位控制 CD = cache禁用 NW =非写直达两条控制指令使 cache无效和写回然后使无效 L2和L3是8路组相联行大小为128字节六、ARM的Cache组织核心 Cache 类型 Cache 大小 (kB) Cache行大小 (words) 相联度存储单元写缓冲大小 (words) ARM720T 统一 8 4 4路逻辑 8 ARM920T 分立 16/16数据/指令 8 64路逻辑 16 ARM926EJ-S 分立 4-128/4-128 数据/指令 8 4路逻辑 16 ARM1022E 分立 16/16 D/I 8 64路逻辑 16 ARM1026EJ-S 分立 4-128/4-128 数据/指令 8 4路逻辑 8 Intel StrongARM 分立 16/16数据/指令 4 32路逻辑 32 Intel Xscale 分立 32/32数据/指令 8 32路逻辑 32 ARM1136-JF-S 分离 4-64/4-64 数据/指令 8 4路物理 32 1.ARM的Cache结构小FIFO写缓冲提高存储器的写性能位于cache和主存之间比cache小很多数据以处理器时钟速度放入写缓冲处理器继续执行其它操作外部写操作并行执行，直到缓冲空若干缓冲满，则处理器暂停缓冲中的数据不可用，直到写完成所以缓冲可以很小 2.ARM的Cache和写缓冲结构七、网站资源厂商网站 Intel ARM 搜索cache * * * * * * * * * * * * * * * * * * * * * * * * （3）Cache行表 Cache行存放的主存块 0 0, m, 2m, 3m…2s-m 1 1,m+1, 2m+1…2s-m+1 … m-1 m-1, 2m-1,3m-1…2s-1 （4）直接映射Cache结构（5）例子（6）总结地址长度=(s+w)位可寻址的单元数=2s+w个字或字节块大小=行大小=2w字或字节主存的块数=2s+w/2w=2s Cache的行数=m=2r 标识长度=(s – r)位（7）直接映射的优缺点简单便宜给定的块有固定的位置如果程序重复地访问映射到相同位置的2个块，则cache 失效率非常高（7）Victim Cache 更低的失效开销保存被丢弃的块已经取进再次使用开销小全相联 4至16个cache行位于直接映射L1 cache和下一级存储器之间 2）全相联映射主存的块可以放进cache的任意行存储器地址分成标识和字标识唯一确定主存的块检查每行的标识来决定是否匹配 Cache查找非常昂贵（1）从Cache到主存主存的一块（2）Cache结构（3）