几种Linux操作系统内核的崩溃转储机制.docxVIP

下载本文档

31
0
约5.57千字
约 9页
2022-06-30 发布于天津
举报
版权申诉

几种Linux操作系统内核的崩溃转储机制.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【Word版本下载可任意编辑】 PAGE 1 - / NUMPAGES 1 几种Linux操作系统内核的崩溃转储机制随着嵌入式Linux系统的广泛应用，对系统的可靠性提出了更高的要求，尤其是涉及到生命财产等重要领域，要求系统到达安全完整性等级3级以上，故障率(每小时出现危险故障的可能性)为10-7以下，相当于系统的平均故障间隔时间(MTBF)至少要到达1141年以上，因此提高系统可靠性已成为一项艰巨的任务。对某公司在工业领域14 878个控制器系统的应用调查说明，从20**年初到20**年9月底，随着硬软件的不断改良，根据错误统计的故障率已降低到20**年的五分之一以下，但查找错误的时间却增加到原来的3倍以上。这种解决问题所需时间呈上升的趋势固然有软件问题，但缺乏必要的手段以辅助解决问题才是主要的原因。通过对故障的统计跟踪发现，难以解决的软件错误和从发现到解决耗时较长的软件错误都集中在操作系统的部分，这其中又有很大比例集中在驱动程序部分。因此，错误跟踪技术被看成是提高系统安全完整性等级的一个重要措施，大多数现代操作系统均为发展提供了操作系统内核“崩溃转储”机制，即在软件系统宕机时，将内存内容保存到磁盘，或者通过网络发送到故障服务器，或者直接启动内核调试器等，以供事后分析改良。基于Linux操作系统内核的崩溃转储机制近年来有以下几种： (1) LKCD(Linux Kernel Crash Dump)机制 ; (2) KDUMP(Linux Kernel Dump)机制 ; (3) KDB机制 ; (4) KGDB机制。综合上述几种机制可以发现，这四种机制之间有以下三个共同点： (1) 适用于为运算资源丰富、存储空间充足的应用场合; (2) 发生系统崩溃后恢复时间无严格要求; (3) 主要针对较通用的硬件平台，如X86平台。在嵌入式应用场合想要直接使用上列机制中的某一种，却遇到以下三个难点无法解决： (1) 存储空间缺陷嵌入式系统一般采用Flash作为存储器，而Flash容量有限，且可能远远小于嵌入式系统中的内存容量。因此将全部内存内容保存到Flash不可行。 (2) 记录时间要求尽量短嵌入式系统一般有复位响应时间尽量短的要求，有的嵌入式操作系统复位重启时间不超过2s，而上述几种可用于Linux系统的内核崩溃转储机制耗时均不可能在30s内。写Flash的操作也很耗时间，实验显示，写2MB数据到Flash耗时到达400ms之多。 (3) 要求能够支持特定的硬件平台嵌入式系统的硬件多种多样，上面提到的四种机制均是针对X86平台提供了较好的支持，而对于其他体系的硬件支持均不成熟。由于这些难点的存在，要将上述四种内核崩溃转储机制中的一种移植到特定的嵌入式应用平台是十分困难的。因此，针对上述嵌入式系统的三个特点，本文介绍一种基于特定平台的嵌入式Linux内核崩溃信息记录机制LCRT(Linux Crash Record and Trace)，为定位嵌入式Linux系统中软件故障和解决软件故障提供辅助手段。 1 Linux内核崩溃的分析分析Linux内核对于运行期间各种“陷阱”的处理可以得知，Linux内核对于应用程序导致的错误可以予以监控，在应用程序发生除零、内存访问越界、缓冲区溢出等错误时，Linux内核的异常处理例程可以对这些由应用程序引起的异常情况予以处理。当应用程序产生不可恢复的错误时，Linux内核可以仅仅终止产生错误的应用程序，其他应用程序仍然可以正常运行。如果Linux内核本身或者新开发的Linux内核模块存在bug，产生了“除零”，“内存访问越界”、“缓冲区溢出”等错误，同样会由Linux内核的异常处理例程来处理。Linux内核通过在异常处理程序中判断，如果发现是“严重的不可恢复”的内核异常，则会导致“内核恐慌”(kernel panic)，即Linux内核崩溃。图1所示为Linux内核对异常情况的处理流程。 2 LCRT机制的设计与实现通过对Linux内核代码的分析可知，Linux内核本身提供了一种“内核通知机制” ，并预定义了“内核事件通知链”，使得Linux内核扩展开发人员可以通过这些预定义的内核事件通知链在特定的内核事件发生时执行附加的处理流程。通过对Linux内核源代码的研究发现，对于上文中提到的“严重不可恢复的内核异常”，预定义了一个通知链和通知点，使得在发生Linux内核崩溃之后，可以在Linux内核的panic函数中预定义的一