存储器存储系统的特性存储位置容量传送单元存取方法性能物理 .PPT

存储器存储系统的特性存储位置容量传送单元存取方法性能物理 .PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
存储器存储系统的特性存储位置容量传送单元存取方法性能物理

* * * * * * * * * * * * * * * * * * 1.Intel的Cache进展 问题 解决方案 首次采用该特征的处理器 外部存储器比系统总线慢 使用更快的存储器技术,增加外部Cache 386 增加的处理器速度导致外部总线成为Cache访问的瓶颈 将外部Cache移到片内,以处理器相同的速度进行操作 486 由于片内空间的限制,片内Cache太小 使用比主存更快的技术,增加外部L2级Cache 486 当指令预取器和执行单元同时需要访问Cache时出现了竞争。在此种情况下,指令预取器在执行单元访问数据时只能暂停 形成分离的数据Cache和指令Cache Pentium 增加的处理器速度导致外部总线成为L2级Cache访问的瓶颈 形成分离的后端总线,它比主(前端总线)外部总线运行速度快。BSB总线服务于L2 Cache Pentium Pro 将L2 Cache移到处理器芯片内 Pentium II 某些应用需要处理庞大的数据库,并且必须对大量数据进行快速的访问。片上Cache太小 增加外部L3级Cache Pentium III ? 将L3 Cache移到片内 Pentium 4 2.Pentium 4架构图 3.Pentium 4的核处理器 取指/译码单元 从L2 cache中读取指令 译码成微操作 将微操作存进L1 cache 乱序执行逻辑 调度微操作 基于数据相关性和资源可用性 可能需要推测执行 执行单元 执行微操作 从L1 cache读取数据 结果存入寄存器 存储器子系统 L2 cache和系统总线 4.Pentium 4的设计理由 在进入L1 cache前,将指令译码为类似微操作的RISC 微操作固定长度 超标量流水和调度技术 Pentium的指令长且复杂 通过独立于调度和流水线逻辑来译码,使性能提高 (详见第14章) 数据采用写回法 可以配置为写直达 L1 cache由控制寄存器中的两位控制 CD = cache禁用 NW =非写直达 两条控制指令使 cache无效和写回然后使无效 L2和L3是8路组相联 行大小为128字节 六、ARM的Cache组织 核心 Cache 类型 Cache 大小 (kB) Cache行大小 (words) 相联度 存储单元 写缓冲大小 (words) ARM720T 统一 8 4 4路 逻辑 8 ARM920T 分立 16/16数据/指令 8 64路 逻辑 16 ARM926EJ-S 分立 4-128/4-128 数据/指令 8 4路 逻辑 16 ARM1022E 分立 16/16 D/I 8 64路 逻辑 16 ARM1026EJ-S 分立 4-128/4-128 数据/指令 8 4路 逻辑 8 Intel StrongARM 分立 16/16数据/指令 4 32路 逻辑 32 Intel Xscale 分立 32/32数据/指令 8 32路 逻辑 32 ARM1136-JF-S 分离 4-64/4-64 数据/指令 8 4路 物理 32 1.ARM的Cache结构 小FIFO写缓冲 提高存储器的写性能 位于cache和主存之间 比cache小很多 数据以处理器时钟速度放入写缓冲 处理器继续执行其它操作 外部写操作并行执行,直到缓冲空 若干缓冲满,则处理器暂停 缓冲中的数据不可用,直到写完成 所以缓冲可以很小 2.ARM的Cache和写缓冲结构 七、网站资源 厂商网站 Intel ARM 搜索cache * * * * * * * * * * * * * * * * * * * * * * * * (3)Cache行表 Cache行 存放的主存块 0 0, m, 2m, 3m…2s-m 1 1,m+1, 2m+1…2s-m+1 … m-1 m-1, 2m-1,3m-1…2s-1 (4)直接映射Cache结构 (5)例子 (6)总结 地址长度=(s+w)位 可寻址的单元数=2s+w个字或字节 块大小=行大小=2w字或字节 主存的块数=2s+w/2w=2s Cache的行数=m=2r 标识长度=(s – r)位 (7)直接映射的优缺点 简单 便宜 给定的块有固定的位置 如果程序重复地访问映射到相同位置的2个块,则cache 失效率非常高 (7)Victim Cache 更低的失效开销 保存被丢弃的块 已经取进 再次使用开销小 全相联 4至16个cache行 位于直接映射L1 cache和下一级存储器之间 2)全相联映射 主存的块可以放进cache的任意行 存储器地址分成标识和字 标识唯一确定主存的块 检查每行的标识来决定是否匹配 Cache查找非常昂贵 (1)从Cache到主存 主存的一块 (2)Cache结构 (3)

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档