Linux的系统级性能剖析工具‐perf(三).PDFVIP

Linux的系统级性能剖析工具‐perf(三).PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Linux的系统级性能剖析工具‐perf(三)

Linux 的系统级性能剖析工具‐perf  (三)  承刚   TAOBAO  Kernel Team  chenggang.qin@    第四章  perf stat  4.1 perf stat 的基本使用方法  perf stat 工具用来剖析一个应用程序的性能概况。使用方法非常简单,下面 的命令能够得到’ls’程序的一些典型性能数据:  $perf stat ls  上述命令给出的性能概况如图16 所示。    图16. perf stat ls 的输出结果    从图上可以看到,perf stat 工具利用10 个典型性能事件剖析了应用程序。 task‐clock 事件表示目标任务’ls’真正占用处理器的时间,单位是毫秒。我们将其 称为任务执行时间。如图16 所示,’ls’在处理器上执行了近4 毫秒。“0.256 CPUs  utilized”表示目标任务的处理器占用率。处理器占用率表示目标任务的执行时间 与持续时间的比值。持续时间是指从任务提交到执行结束之间的总时间。对操作 系统有过了解的读者应该知道,Linux 这种多任务分时操作系统中,一个任务不 太可能在执行期间始终占据处理器。操作系统会根据调度策略(linux 目前使用 CFS 调度算法)合理安排各个任务轮流使用处理器,每次调度会产生一次上下文 切换。在此期间操作系统还需处理大量中断。因此,一个任务的执行时间可能会 很短,但是它的持续时间会远高于此(除非此任务是优先级最高的实时任务)。 以图16 中的例子来说,’ls’ 的执行时间为3.98 毫秒,而持续为15.58 毫秒,处理 器占用率为0.256 。在此期间,系统共发生了45 次上下文切换。平均每秒发生 0.011*106 次。上下文切换次数的均值是上下文切换次数与任务执行时间的比值。  在多(核)处理器系统中,Linux 为了维持各个处理器的负载均衡,会在特 定条件下将某个任务从一个处理器迁往另外一个处理器。此时,我们便说发生了 一次处理器迁移。从图16 上看到,ls 在执行期间没有被操作系统迁移过。  Linux 的内存管理子系统采用了分页机制。当应用程序请求的页面尚未建立、 请求的页面不在内存中、或者请求的页面虽然在内存中,但尚未建立物理地址与 虚拟地址的映射关系时,都会触发一次缺页异常(page‐fault)。内核在捕获缺页 异常时,根据异常种类进行相应的处理。另外,TLB 不命中,页面访问权限不匹 配等情况也会触发缺页异常。  内核中对page faults (PERF_COUNT_SW_PAGE_FAULTS)事件的精确定义是缺页 异常的处理函数do_page_fault()被执行。程序’ls’在执行期间共触发了320 次缺页 异常。平均发生率为每秒0.08*106 次。  ‘cycles’为’ls’程序消耗的处理器周期数。如果将被’ls’ 占据的那部分时间看作一 个抽象处理器,它的主频只需为0.75GHz 便可以在3.98 毫秒内完成’ls’命令的处 理。  ‘instructions’是指命令’ls’执行期间产生的处理器指令数。IPC (instructions perf  cycle)为0.69 。IPC 是评价处理器与应用程序性能的重要指标。在X86 这种CSIC 处理器上,很多指令需要多个处理器周期才能执行完毕。另外,有些指令在流水 线上未必能成功引退(retired),从而形成无效指令。长指令与无效执行越多,IPC 就越低,处理器的利用率与程序的执行效率也就越低。因此,IPC 在一定程度下, 让我们对程序的执行效率有

文档评论(0)

ldj215323 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档