- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论程序底层优化的一些方法与技巧 成都七中 骆可强 一个简单的例子 论文中所覆盖的主题 高维数组访问的底层表现 编译器对除以常数的优化 CPU的分支预测机制 在信息学奥赛中的实践 总结 谢谢大家欢迎提问 * * 耳蕊挣矣损淳绍泻羌惰拐匪铰宙致嘿凡晶止砌饵和馆馆漠登虞稼袭淖宅橇算法合集之《论程序底层优化一些方法和技巧》算法合集之《论程序底层优化一些方法和技巧》 大家好,我是来自成都七中的骆可强,今天要在这里和大家分享的主题是 程序底层优化的一些方法与技巧 首先我想要问大家一个问题,一个程序,在它能够正确地完成我们所期望的任务的前提下,最重要的是什么? 相信大家不会否认,是程序运行的效率,即程序应该尽可能少地占用系统资源。效率,分为时间效率和空间效率,我在这里要和大家讨论的,正是如何优化程序运行的时间效率。 程序的时间效率主要由什么来决定呢?是算法。 算法的效率又由什么来衡量呢?时间复杂度。 现在看到的是我们都很熟悉的大O表示法。 注意到在定义式中存在着一个常数C,我喜欢将它一分为二地来看待:令C=C1*C2,其中C2是由算法的具体实现所决定的,而C1取决于程序的底层细节。我的论文所研究的主题,就是怎样在程序运行的底层,对细节做出优化。 那么,到底什么是底层优化,它能起到多大的实际效果呢?我们来看一个简单的例子。 假设我们需要完成这样一个简单的函数,它接收一个整数类型的数组作为参数,并返回其中的最大值。 我们很容易写出一个这样的程序。 可是它的运行效率怎样呢?经过测量,它平均每处理一个数据需要占用7.5个CPU时钟周期。 关于实验平台、编译方式、测量工具,在我的论文中都有详细的说明。 这样简单的一个程序有优化的余地么?有!我一共进行了6次优化。 第一次,我使用指针优化了数组的寻址,获得12%的效率提升 第二次,我将求最大值的过程分为8路分别进行,运行时间比最初减少了54% 第三次,我使用内嵌汇编实现了这个函数,运行时间优化了72% 第四次,我用内嵌汇编实现了多路求值,获得77%的时间优化 第五次,我使用了CPU的扩展SIMD指令集来重新实现程序,获得80%的优化 第六次,我使用了SSE4指令集来编写程序,遗憾的是只有较新的CPU才支持这项特性,所以没有办法测量它的效率 这些优化的具体方法和原理,在我的论文中都有详细的阐释。 通过这个例子,相信大家对底层优化是做怎样的工作有了一个大概的认识。那么,具体有些什么优化的方法或技巧呢? 在程序底层做优化,是一件需要丰富的知识和经验,同时又要求想象力和创造力的工作。其中的方法与技巧也是多种多样的,我在论文中尽我所能全方位地对它们做了介绍。遗憾的是今天时间有限,我在这里选择了其中的三个主题与大家分享。 第一个主题是:高维数组访问的底层表现 我们平时写程序经常使用高维数组,它们的底层效率真的那么让人放心么? 来看这样一个例子: 这个简单的程序使用两重循环来遍历一个二维数组,最外层的循环用于放大程序运行的时间 我们测试它的运行时间,为1.76秒。 注意到在程序中我们使用了行优先顺序来访问数组,即外层循环遍历行,内层循环遍历列。 我们简单地交换两句循环语句 这时程序的逻辑并没有发生变化,那么程序的运行时间呢? 经过测试,这个程序需要耗费18.6秒,竟然慢了整整10倍。 再做一个小小的改动,将数组的行列尺寸各增大1,现在程序的运算量增加了,时间也应该变得更慢 可是,这个程序的运行时间为4.6秒,比上一个程序却快了4倍。 为了解释这些奇怪的结果,需要了解高维数组在内存中的放置方式。 高维数组在内存中都是线性安放的,在C语言中,按照的是行优先顺序,就像这样 当我们使用行优先顺序遍历数组时,恰好就是顺次访问内存数据,会非常有利于CPU高速缓存的工作。 那么第2个程序的18秒又是怎么回事呢?大致是因为由于数组的尺寸恰好是2的方幂,导致CPU缓存冲突严重导致。 关于什么是CPU高速缓存,怎样工作,怎样让它服务于我们,请参见我的论文。 通过这个例子,我们至少知道了两点,其一是我们应该尽量按照数据在内存中放置顺序去访问它,其二是应该避免高维数组的尺寸是二的方幂。 我想讲的第二个主题是,编译器对除以常数的优化。 请看这一行简单的C语句:a/=7,编译器会怎样去处理它呢?想来会调用CPU的除法指令来完成任务 但事实并不是这样的,这是编译器实际编译出来的汇编代码 可以看到里面并不包含除法指令,使用了一些简单的乘法和位移指令就完成了任务,而且运行得比除法指令更快 它是怎么做到的呢?我仔细考察这段代码发现,在一定范围内的除法竟然确实可以和乘法和位移运算等价。 为什么是正确的?这些常数是怎样找出来的?这个式子又该怎样高效的
您可能关注的文档
- 房地产企业税种与税率.doc
- 编辑_CAD_命令_基本_.ppt
- 房地产企业所得税预征与结转税务处理.doc
- 程序设计语言和数据结构重考题2010.doc
- 房地产企业土地增值税筹划与计算征收方法.doc
- 房地产开发企业特殊经济业务会计处理.doc
- 航空管理系统 运行得起.doc
- 房地产开发企业所得税新31与旧31号对比.doc
- 房地产企业重点涉税疑难问题处理技巧与例解.doc
- 真题模拟试题与答案.doc
- 2025三支一扶能力检测试卷含完整答案详解【夺冠】.docx
- 2025三支一扶过关检测试卷附答案详解【能力提升】.docx
- 2025三支一扶过关检测试卷附参考答案详解(达标题).docx
- 2025三支一扶考前冲刺试卷及参考答案详解(模拟题).docx
- 2025三支一扶经典例题带答案详解(典型题).docx
- 西门子S7-300 PLC与S7-1200 PLC以太网通讯及HMI集成实现焊接生产线的智能化升级.docx
- 2025年三支一扶模考模拟试题【历年真题】附答案详解.docx
- 2025三支一扶自我提分评估【培优B卷】附答案详解.docx
- 2025年三支一扶经典例题附答案详解AB卷.docx
- 2025三支一扶模拟题库含完整答案详解【各地真题】.docx
文档评论(0)