改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报.PDF

下载文档

5
0
约1.49万字
约 7页
2018-03-29 发布于天津
举报
版权申诉
保障服务

改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报.PDF

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报

第37卷第5期北京工业大学学报 V01．37No．5 OF UNIVERSITYOFTECHNOLOGY Mav20lI 2011年5月 JOURNALBEIJING 改进贝叶斯算法在未知恶意软件识别中的研究赖英旭，杨震 (北京工业大学计算机学院，北京 100124) 摘要：为改进朴素贝叶斯(naiveBayes，NB)算法在识别未知恶意代码过程中学习速度慢的缺点，在分析研究朴素贝叶斯算法、复合贝叶斯(multi-naive naive Bayes。HNB)算法．算法采用特征集增量学习方式，在保证分类精度不降低的前提下，学习速度提高约 30％．实际样本测试表明，分类精度达到了96％。其中对已知恶意代码的分类精度达到99％．关键词：分类器；数据挖掘；贝叶斯算法中圈分类号：TP309．5 文献标志码：A 文章编号：0254—0037(2011)05—0766一07 因特网的发展和普及给人们交流信息带来便捷的同时，也为恶意代码的快速蔓延提供了平台．识别恶意代码的传统方法是特征检测法，但此方法只能检测已知恶意代码，对未知恶意代码无能为力…．这是有界长度病毒的可靠检测是一个多项式复杂程度的非确定性问题(non-deterministic polynomial，NP)问题．因此，人们致力于研究新方法来检测未知恶意代码并将其消除．序并得到了验证．随着数据挖掘方法在入侵检测中取得了非常好的效果怕。’，Schultz旧。等将数据挖掘中的 RIPPER、朴素贝叶斯(naiveBayes，NB)算法、复合贝叶斯(multi．naiveBayes，MNB)算法用于检测多种类型的未知恶意代码，测试结果表明复合贝叶斯的分类效果高于其他方法．遵循上述思想，Koher一’和恶意代码检测，取得了较好的结果．在上述算法中提取的特征基本上都采用，t-gram机器码，特征数量巨大，分类器学习速度较慢．本文在文献[8．9]的基础上做了2处改进：1)提取字符串作为特征，这样比只使用头部信息(DLL名等)作为特征有了更高的可靠性．因为头部信息在脱壳时极易被破坏；同时由于字符串的长度不是固定长度，比采用固定长度n—gram滑动窗口选取特征更能反映程序的行为特征．2)在分析朴素贝叶斯算法和复合贝叶斯算法¨列的基础上，对特征集进行增量学习，大大提高了分类器学习速度，同时保证精度不降低．本文对所提出方法的有效性和准确度作了理论上的分析和计算，并且对所得到的模型进行了实验测试．在实验中使用了2995个实验样例，取得了96％的分类精度，其中对已知恶意代码的分类精度达到99％，这个结果和文献[8-9]的效果接近，但学习速度快． 1构造特征集特征集，的选取直接影响到分类器的分类精度．特征项可以采用资源描述符、字符串和机器码3种收稿日期：2009．04．03．自然科学基金资助项目(4102012)；国家自然科学基金资助项目．作者简介：赖英旭(1973一)．女．辽宁抚顺人，副教授．第5期赖英旭，等：改进贝叶斯算法在未知恶意软件识别中的研究 767 描述方式．考虑到大部分恶意代码都经过了加压和加壳处理，以达到隐蔽目的，如果对加壳文件进行脱壳处理，会出现可执行(portableexecute，PE)文件头被破坏的现象．PE文件头中包含着调用的应用程序编程接口(applicationprogramming 符作为特征．机器码描述方式通常采用n—gram滑动窗口提取出固定长度的机器码串，因为机器码没有实际意义，所以在特征过滤时没有非常好的策略．本文采用的方法是提取样本集中的字符串作为特征集．数量是巨大的，直接影响着分类器的学习速度，也易使数据库过于庞大，所以需要选择一种恰当的方法把这些无意义的字符串过滤掉．本文选用了计算机字典进行过滤，字典内容包含7336个条目：计算机常用英语单词，包括常用计算机英语缩写；特别的计算机单词，如“QQ”