- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高性能计算机体系结构;主要内容;1. 计算机体系结构的定义(Review);计算机系统结构正确定义;Computer Architecture Topics;Microprocessor Computer System Components;Microprocessor Computer System Components;处理器并行度的开发;;芯片级并行性;芯片级并行性;芯片级并行性;芯片级并行性;*;*;;*;*;Intel’s tera-scale chip;Intel 80核芯片(2007);IBM POWER7(2010);*;*;*;*;*;2 高性能计算机性能评测;2.1 高性能计算机的基本性能;一、系统处理能力;2、MFLOPS指标
能够精确反映处理能力(求解问题←→浮点运算)。
MIPS比较适宜于评估向量处理机。;3、吞吐率
定义:单位时间内能处理的作业数。
应用:用于表示并行计算机的并行处理能力的速度。
对单处理器系统,吞吐率=1/执行时间。;4.高性能计算机的基本性能指标;;二、系统响应能力
一般用响应时间表示,不太考虑I/O的时间。;1、用户CPU时间
TCPU=IN×CPI×TC= IN×(p+m×k)×TC
其中:p—处理周期数/指令,
m—MEM访问次数/指令,k—MEM访问时延;2、平均CPI; 例: A机执行的程序中有20%转移指令(2TC),转移指令都需要一条比较指令(1TC)配合,其他指令1TC。B机中转移指令包含比较指令,但TC比A机慢15%。A机、B机哪个工作速度快?;三、利用率
不直接表示系统性能指标,与前两种指标有密切关系。
对系统性能或结构改进与优化起着至关重要的作用。 ;四、高性能计算机性能评价;四、高性能计算机性能评价;五、性能评价与比较;(2)模拟技术
思路:建立模拟器,模拟系统性能模型和工作负载模型,对运行后的数据进行统计、分析和评价。;(3)测量技术
思路:通常采用基准测试程序评价。;2、比较技术;(2)几何平均方法;(3)调和平均方法;2 高性能计算机性能评测;2.2 机器级性能评测;2.2 机器级性能评测;并行度(Degree Of Parallelism—DOP)
并行度(DOP)是在一定时间间隔内执行一个程序所用的处理机的数目。
并行性分布图
执行一个给定的程序时DOP对时间的分布图。
DOP与对应时间的间隔之积即为处理机要完成的工作或工作负载。
并行执行时间Tn 可以为:
;DOP;存储器性能
容量(C):存储器的大小
延迟(L):读取一个字的时间
带宽(B):单位时间内传送的字节数;加速比性能定律
1. 绝对加速比
将最好的串行算法与并行算法相比较.
定义一(与具体机器有关)将最好的串行算法在一台处理机上的运行时间与并行算法在N台处理机上运行的时间相比。
定义二(与具体机器无关)将最好的串行算法在最快的顺序机上的执行时间与并行算法在并行机上的运行时间相比。;2.相对加速比
同一并行算法在单节点上运行时间与在多个相同节点构成的处理机系统上的运行时间之比。
这种定义侧重于描述算法和并行计算机本身的可扩展性。;三种加速比性能模型;设串行因子α为串行部分所占的比例。即;效率En可以表示为:;加速比的两个决定因素:
1.计算机执行某个任务的总时间中可被改进部分的时间所占的百分比,即
可被改进部分占用时间/改进前整个任务的执行时间,
记为Fe,它总小于1。
2.改进部分采用改进措施后比没有采用改进措施前性能提高的倍数,即
改进前改进部分执行时间/改进后改进部分执行时间,
记为Se。;例1:
假设将某系统的某一部件的处理速度加快到10倍,但该部件的原处理时间仅为整个运行时间的40%,则整个系统的性能提高了多少?
解:Fe = 0.4,Se = 10,;例2:采用哪种实现技术来求浮点数平方根FPSQR的操作对系统的性能影响较大。假设FPSQR操作占整个测试程序执行时间的20%。一种实现方法是采用FPSQR硬件,使FPSQR操作的速度加快到10倍。另一种方法是使所有浮点数据指令的速度加快,使FP指令的速度加快到2倍,还假设FP指令占整个执行时间的50%。请比较这两种设计方案。
解:Fe_FPSQR = 0.2,Se_FPSQR = 10, Fe_FP = 0.5,Se_FP = 2,;Amdahl’law又称为固定规模加速比模型,问题规模不随处理机变化而变化。固定问题规模,看用并行技术能达到的最短时间是多少。
在固定
文档评论(0)