计算机体系结构 ch0 浙江大学 石教英 陈天洲(主讲).ppt

计算机体系结构 ch0 浙江大学 石教英 陈天洲(主讲).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机体系结构 ch0 浙江大学 石教英 陈天洲(主讲)

[例1] MIPS的误导作用 设对1.3节例1做编译优化. 编译可减少50%的ALU指令, 但不减少其它指令.若不考虑其它因素,已知时钟周期是 20ns. 计算编译优化前后的MIPS值.问优化是否提高了 计算机性能? MFLOPS----百万个浮点操作/秒 可以比较不同机器的浮点运算能力, 但有局限性 1. MFLOPS不仅和机器有关, 也和所用测试程序有关 2. 不同机器的浮点指令不同 3. MFLOPS不仅与整数. 浮点操作的比例有关,还和快. 慢浮点操作的比例有关 响应时间(elapsed time) ----------计算机系统完成某一任务(程序)的时间, 包括磁盘访问,存储器访问,输入/输出以及OS开 销的时间. [例] 在UNIX系统中打time命令得到: 101.8U 17.2S 3:20 59% 响应时间 用户占CPU 时间 系统开销 (U+S)百分比 系统性能 CPU time 用户CPU时间 ------CPU真正执行用户代码的时间 系统CPU时间 ------CPU执行OS代码所占用的时间 CPU性能 系统CPU时间难测的原因: 1. 不同的机器用不同的OS 2. 系统CPU时间是由OS自身测量的 3. OS系统代码在有些机器上也算用户代码 二.测试程序的选择 用户工作负载(常用程序组合+OS命令)的执行时间 实际程序 用户用来解决问题的实际工作程序.尽管不知道在工作负载中所占的比例. 如C编译器,文本编辑器等, 有输入,输出,参数 核心基准测试程序(kernel benchmark) 从实际程序中抽出来的核心代码段,适于独立评价某一方面的性能 如Livemore Loops(浮点循环), Linpack等 简单基准测试程序(toy benchmark) 事先知道结果的小程序(10~100行) 如快速排序,八皇后问题 等 综合基准程序(synthetic benchmark) 根据大量实际程序的统计数据(指令和操作数的使用频度)人为设计编制的程序 如Whetstone, Dhrystone等 后三种测试程序的局限性 只突出反映某个特点, 用户想知道的是整个计算机系统的性能 迫于竞争压力,针对测试程序做优化 长字符串拷贝 ==== 传送固定长度的字的循环 (字地址对齐) 基准测试程序集(Benchmark suits) 1988年, Apollo/Hewlettchard,DEC,SUN和一些著名大学组成了 提供性能评价基准程序的组织-----SPEC 程序组: 核心基准程序+实际程序 SPEC89, SPEC92 --------事实上的标准 基准测试程序的一般设计原则 具有代表性,反映用户的实际应用 不能对基准程序进行优化 复现性:能重复测试,环境相同,结果相同 可移植性 紧凑性 成本效率比要高 三. 测量结果的分析报告 基本要求:再现性(测量和分析结果) SPEC: 机器软硬件的详尽描述 所用程序组,输入数据 编译程序, 编译参数, (一般,优化) 测量结果数据, 统计分析方法 图表方式的性能评价结果 [例] 测试结果数据如下 据程序1: A最快 B其次 C最慢 据程序2: A最慢? B其次 C最快 据总执行时间:A最长 B其次 C最短 数据处理方法 1. 总执行时间? 平均执行时间 调和平均值(性能) 结果唯一 仅当各程序在工作负载中均匀分布时才有效 2. 加权执行时间 给每个程序设定加权系数Wi,且 若取 则为等时加权平均 考虑程序在负载中的不均匀性 1 分析结果与参照机器的选择有关(结果不唯一) 2 Wi与程序的执行时间成反比-----Ti越小,Wi 越大 3. 几何平均 因为: 几何平均(Xi)/几何平均(Yi) =几何平均(Xi/Yi) 几何平均的倒数 = 倒数的几何平均 4. 规范化执行时间 与参照机器无关 1. 不反映执行时间 无法区分A.B 2. 针对易于提高性能而非性能差的Benchmark做优化 1.6 计算机的价格构成和发展趋势 成本预算 投放市场的时间-------经验曲线 例: DRAM平均每年每兆字节下降40% 产品批量(volume) 批量翻一倍,成本降低10%

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档