- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于CPU的一些性能介绍.doc
关于CPU的一些性能介绍
摘要:CPU(中央处理器)广泛应用于计算机工程领域。该文主要论述了CPU的性能,主要包括超长指令字处理器、超标量、处理器体系结构、优于最坏情况设计,分析了其发展方向。
关键词:微处理器;超长指令字;超标量
中图分类号:TP31 文献标识码:A 文章编号:1009-3044(2014)04-0847-03
1 概述
中央处理单元(CPU)是嵌入式系统的心脏,无论我们使用一个CPU或者用多个CPU组合来组成一个微处理器,指令集系统都能提供高效性和通用性,完成功能强大的嵌入式计算。下面主要从CPU的一些性能来进行说明。
2 CPU的并行执行机制
在这一节中,我们来看处理器进行并行操作的几种方法。这里将介绍超长指令字和超标量处理、子字并行、向量处理以及线程级并行。
2.1 超长指令字处理器
超长指令字(VLIW)体系结构起源于通用处理器,但在嵌入式系统中已经得到了广泛应用。VLIW体系结构提供了硬件开销相对较低的指令级并行。
图1展示了一个简化的VLIW处理器来介绍这项技术的基本原理。执行单元包括一个功能单元池,连接到一个大的寄存器堆。对于VLIW,我们可以说执行单元读入一个指令包—包中的每条指令可以控制机器中的一个功能单元。在一个理想的VLIW机器中,指令包中所有的指令同时被执行。在现代机器中,执行完包中所有的指令可能需要若干个周期。与超标量处理器不同,指令执行的顺序是由代码的结构和指令如何组成包决定的。在当前指令包中所有的指令执行完之前,下一指令包中的指令不会开始执行。
由于指令包的组织决定了指令执行的顺序,VLIW机器依靠强大的编译器来辨认并行性以及调度指令。编译器保证资源约束和相应的调度策略。作为补偿,执行单元就变得简单一些,因为不需要做资源依赖性检查。
2.2 超标量
超标量处理器在每个时钟周期发射多于1条的指令。与VLIW处理器不同,超标量处理器动态地进行资源冲突的检查,来确定每一步可以发出哪些指令组合。超标量体系结构在桌面系统和服务器领域具有主导地位。在嵌入式领域,超标量体系结构不及在桌面系统、服务器领域中常用。对嵌入式系统来说,评价的标准更可能是每瓦特能耗所完成的操作数,而不仅仅是性能。
尽管如此,还是有不少嵌入式处理器使用了超标量指令发射,虽然其超标量程度不及高端的服务器。嵌入式Pentium是一款按序双发射处理器,具有两条流水线:一条进行任意整数运算,另一条进行简单整数运算。
2.3 SIMD与向量处理器
许多应用展示出了数据级的并行性,使得应用本身具有高效的计算结构。另外,这些数据规模通常比较小。所以我们可以构建更多的并行处理器单元来获得更高的并行性。
一项关于小操作数宽度的技术叫做子字并行化(SIMD)。处理器中的ALU可以工作于正常模式,也可以分割为若干较小的ALU。一个ALU可以很容易通过将进位链断开进行分割,使位和位之间可以独立运算。每个子字可以对独立的数据进行操作;操作通过同样的操作码控制。由于同样的指令作用于若干数据,这项技术通常被认为是SIMD的一种。
另一种用于数据并行的技术是向量处理。向量处理已经在科学计算领域应用了几十年,使用特殊设计的指令在向量上高效地完成求点积之类的运算。向量处理并不要求小数据值,但是小的数据类型构成的向量可以在可用的硬件上并行完成更多的操作,特别是在使用子字并行方法管理数据路径资源的情况下。
2.4 线程级并行
处理器也可以开发线程级或者任务级的并行,线程级的并行更容易发现,特别是在嵌入式系统中。相比指令级的并行,线程的行为更容易预测。
多线程体系结构必须为每个线程提供独立的寄存器。但是由于线程之间的切换是程式化的,控制多线程的方法相对比较直接。硬件多线程技术交替从每个单独线程取指令。在每个周期,从一个线程取足够多的指令,从而能够在没有互锁的情况下让流水线充满。在下一个周期,就从另一个线程取指令。同时多线程(SMT)技术在每个周期都为多个线程取指令,而不是在线程之间交替。
3 性能可变处理器体系结构
因为许多嵌入式系统都需要符合实时性的时间限制,因此嵌入式系统里所使用的单个组件的一个可以预见的执行时间就成为它的重要评价指标。但是,传统的计算机体系结构设计更为关注系统的平均性能,而不是最坏情况的性能。从而导致处理器的平均性能往往很快,而最坏情况很难界定。这往往就会导致硬件设计(过大的高级缓存,过快的处理器)和软件设计(简化代码,限制某些指令的使用)趋于保守。随着能耗以及可靠性问题变得越来越重要,一些新技术不断地发展,而这种发展也使得处理器的行为变得及其复杂。尽管在嵌入式处理器中引入这些技巧会使系统设计变得
文档评论(0)