ARM程序设计方案优化策略与技术.docVIP

下载本文档

1
0
约5.06千字
约 6页
2017-11-20 发布于上海
举报
版权申诉

ARM程序设计方案优化策略与技术.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ARM程序设计方案优化策略与技术

ARM 程序设计优化策略与技术程序优化是指软件编程结束后，利用软件开发工具对程序进行调整和改进，让程序充分利用资源，提高运行效率，缩减代码尺寸的过程。按照优化的侧重点不同，程序ARM优化可分为运行速度优化和代码尺寸优化。运行速度优化是指在充分掌握软硬件特性的基础上，通过应用程序结构调整等手段来降低完成指定任务所需执行的指令数。在同一个处理器上，经过速度优化的程序比未经优化的程序在完成指定任务时所需的时间更短，即前者比后者具有更高的运行效率。代码尺寸优化是指，采取措施使应用程序在能够正确完成所需功能的前提下，尽可能减少程序的ARM代码量。然而在实际的程序设计ARM过程中，程序优化的两个目标（运行速度和代码大小）通常是互相矛盾的。为了提高程序运行效率，往往要以牺牲存储空间、增加代码量为代价，例如程序设计中经常使用的以查表代替计算、循环展开等方法就容易导致程序代码量增加。而为了减少程序代码量、压缩存储器空间，可能又要以降低程序运行效率为代价。因此，在对程序实施优化之前，应先根据实际需求确定相应的策略。在处理器资源ARM紧张的情况下，应着重考虑运行速度优化；而在存储器资源使用受限的情况下，则应优先考虑代码尺寸的优化。 1 程序运行速度优化程序运行速度优化的方法可分为以下ARM几大类。1.1 通用的优化方法(1)减小运算强度利用左/ 右移位操作代替乘/ 除2 运算：通常需要乘以ARM或除以2 的幂次方都可以通过左移或右移n 位来完成。实际上乘以任何一个整数都可以用移位和加法来代替乘法。ARM 7 中加法和移位可以通过一条指令来完成，且执行时间少于乘法指令。例如： i = i × 5 可以用i = (i2) + i 来代替。利用乘法代替乘方运算：ARM7 核中内建有32 ×8 ARM乘法器，因此可以通过乘法运算来代替乘方运算以节约乘方函数调用的开销。例如： i = pow(i, 3.0) 可用 i = i×i × i 来代替。利用与运算代替求余运算：有时可以通过用与（AND ）指令代替求余操作（% ）来提高效率。例如：i = i % 8 可以用 i = i 0x07 来代替。 (2)优化循环终止ARM条件在一个循环结构中，循环的终止条件将严重影响着循环的效率，再加上ARM 指令的条件执行特性，所以在书写循环的终止条件时应尽量使用count-down-to-zero结构。这样编译器可以用一条BNE （若非零则跳转）指令代替CMP （比较）和BLE （若小于则跳转）两条指令，既减小代码尺寸，又加快了运行ARM速度。 (3)使用inline 函数ARM C 支持 inline 关键字，如果一个函数被设计ARM成一个inline 函数，那么在调用它的地方将会用函数体来替代函数调用语句，这样将会彻底省去函数调用的开销。使用inline 的最大缺点是函数在被频繁调用时，代码量将增大。 1.2 处理器相关的优化ARM方法(1)保持流水线畅通从前面的介绍可知，流水线延迟或阻断会对处理器的性能造成影响，因此应该尽量保持流水线畅通。流水线延迟难以避免，但可以利用延迟周期进行其它ARM操作。 LOAD/STORE 指令中的自动索引（auto-indexing）功能就是为利用ARM流水线延迟周期而设计的。当流水线处于延迟周期时，处理器的执行单元被占用，算术逻辑单元ARM（ALU ）和桶形移位器却可能处于空闲状态，此时可以利用它们来完成往基址寄存器上加一个偏移量的操作，供后面的指令使用。例如：指令 LDR R1, [R2], #4 完成 R1= ＊R2 及 R2 += 4 两个操作，是后索引（post-indexing）的例子；而指令 LDR R1, [R2, #4]! 完成 R1 = ＊(R2 + 4) 和 R2 +=4 两个操作，是前索引（pre-indexing）的例子。流水线阻断的情况可通过循环拆解等方法加以改善。一个循环可以考虑拆解以减小跳转指令在循环指令中所占的比重，进而提高代码效率。下面以一个内存复制函数加以ARM说明。 void memcopy(char ＊to, char ＊from, unsigned int nbytes){while(nbytes--)ARM＊to++ = ＊from++;} 为简单起见，这里假设nbytes 为16 的ARM倍数（省略对余数的处理）。上面的函数每处理一个字节就要进行一次判断和跳转，对其中的循环体可作如下拆解： void memcopy(char ＊to, char ＊from, unsigned int nbytes){while(nbytes) {＊to++ = ＊from++;＊to++ = ＊from++;A