lec05-Code Optimization.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lec05-Code Optimization

Computer Systems: A Programmer’s Perspective 计算机系统详解 Lecture 5 Code Optimization April 29, 2011 Wu junmin (jmwu@ustc.edu.cn) Overview Machine-Independent Optimizations Code Profiling Tuning 严峻的现实 这里更强调性能而非渐进复杂性 常数因子同样重要! 很容易看到,代码的编写情况可导致程序性能有10倍的差异 必须在多个层次进行优化: 算法, 数据表示, 过程, 和循环 必须了解系统以便更好的优化 程序是如何编译及执行的 如何测量程序性能及确定性能瓶颈 如何在不破坏代码模块化和通用性的前提下改进性能 优化编译器 为程序提供更有效的机器级映射 寄存器分配 代码选择和排序 (调度) 死代码消除 清除细微的低效情况 不会(通常情况) 改进渐进效率 由程序员来决定选择最好的整体算法 数量级(大O)的改进通常比常数因子更重要 但是常数因子也很重要 逾越优化障碍很困难 潜在的存储器别名 潜在的过程副作用 编译器优化的限制 对优化的根本限制 不能导致任何情况下程序行为的变化 很多优化不能进行的原因是会对一些病态条件下的程序行为产生影响. 由于语言和编码风格的原因,某些对程序员很明显的程序行为可能变得晦涩难懂 例如,数据范围可能比其类型所声明的范围更小 大多数分析仅限于过程内部 在大多数情况下对整个程序的分析代价高昂 大多数分析仅基于静态信息 编译器难以预测运行时输入 当不确定时,编译器只能采取保守方式 平台无关优化 是指通过手工或者编译器来做的一些与处理器、编译器型号无关的优化 代码移动 减少计算的频率 如果总是产生相同的结果 尤其是将代码移出循环体 编译器生成的代码移动 大多数编译器对数组+简单循环有很好的优化措施 GCC生成代码 运算强度减弱 由简单操作替换代价高昂操作 移位, 和加运算来代替乘法和除法 16*x -- x 4 效果与机器相关 取决于乘法和除法指令的开销 在Pentium II或 III平台上, 整数乘法需要4个cpu周期 识别结果序列 公共子表达式共享 部分表达式重用 编译器在挖掘算术属性性能上通常不够精密 时间量级 绝对时间 典型的是以纳秒为单位 10–9秒 机器指令的时间量级 时钟周期 大多数计算机由高频时钟信号控制 典型范围 100 MHz 108周期 每秒 时钟周期 = 10ns 2 GHz 2 X 109 周期每秒 时钟周期 = 0.5ns 测量性能 对大多数程序,使用每元素周期数(CPE) 对于使用链表和向量的程序十分有效 总时间 =固定开销 + CPE * 链表长度 每元素周期数(Cycles Per Element) 对于工作在链表或者向量上的程序是很方便的度量方式 长度 = n T = CPE*n + 开销 向量抽象数据类型(ADT) 操作 vec_ptr new_vec(int len) 创建指定长度向量 int get_vec_element(vec_ptr v, int index, int *dest) 获取向量元素,并存储到*dest 越界返回0,成功返回1 int *get_vec_start(vec_ptr v) 返回向量数据的起始地址 类似于pascal,ML,java中的数组实现 例如总是进行越界检查 优化举例 过程 计算整数向量中所有元素和 将结果存储到目的地址 通过抽象数据类型定义向量数据结构和操作 Pentium III 性能: 时钟周期 /元素 42.06 (Compiled -g) 31.25 (Compiled -O2) 理解循环 低效: 每次迭代都调用过程 vec_length 尽管结果总是相同 将 vec_length 移出循环 优化 将过程vec_length 移出内层循环 从一个迭代到下一个的值不变 代码移动 CPE: 20.66 (Compiled -O2) vec_length 仅需要常量时间,但却有不可忽略的开销 代码移动举例#2 将string中字符转换到小写格式的程序 从实验报告中选出, 1998年 小写格式转换性能 当字符串长度增长为原来的2倍时时间开销增长为4倍 性能是字符串长度的二次方倍 将循环改为goto程序形式 strlen 在每个迭代中都执行 strlen 开销与字符串长度为线性关系 必须扫描字符串以找到\0 整体性能为二次方量级 性能改进 将 strlen移到循环外 因为每次迭代的结果不会改变 代码移动 小写格式转换性能 当字符串长度倍增时间倍增 lower2性能与长度成线性关

文档评论(0)

me54545 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档