改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报.PDF

改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报

第37卷第5期 北京工业大学学报 V01.37No.5 OF UNIVERSITYOFTECHNOLOGY Mav20lI 2011年5月 JOURNALBEIJING 改进贝叶斯算法在未知恶意软件识别中的研究 赖英旭,杨 震 (北京工业大学计算机学院,北京 100124) 摘要:为改进朴素贝叶斯(naiveBayes,NB)算法在识别未知恶意代码过程中学习速度慢的缺点,在分析研究 朴素贝叶斯算法、复合贝叶斯(multi-naive naive Bayes。HNB)算法.算法采用特征集增量学习方式,在保证分类精度不降低的前提下,学习速度提高约 30%.实际样本测试表明,分类精度达到了96%。其中对已知恶意代码的分类精度达到99%. 关键词:分类器;数据挖掘;贝叶斯算法 中圈分类号:TP309.5 文献标志码:A 文章编号:0254—0037(2011)05—0766一07 因特网的发展和普及给人们交流信息带来便捷的同时,也为恶意代码的快速蔓延提供了平台.识别 恶意代码的传统方法是特征检测法,但此方法只能检测已知恶意代码,对未知恶意代码无能为力….这是 有界长度病毒的可靠检测是一个多项式复杂程度的非确定性问题(non-deterministic polynomial,NP)问题. 因此,人们致力于研究新方法来检测未知恶意代码并将其消除. 序并得到了验证.随着数据挖掘方法在入侵检测中取得了非常好的效果怕。’,Schultz旧。等将数据挖掘中的 RIPPER、朴素贝叶斯(naiveBayes,NB)算法、复合贝叶斯(multi.naiveBayes,MNB)算法用于检测多种类 型的未知恶意代码,测试结果表明复合贝叶斯的分类效果高于其他方法.遵循上述思想,Koher一’和 恶意代码检测,取得了较好的结果.在上述算法中提取的特征基本上都采用,t-gram机器码,特征数量巨 大,分类器学习速度较慢. 本文在文献[8.9]的基础上做了2处改进:1)提取字符串作为特征,这样比只使用头部信息(DLL名 等)作为特征有了更高的可靠性.因为头部信息在脱壳时极易被破坏;同时由于字符串的长度不是固定长 度,比采用固定长度n—gram滑动窗口选取特征更能反映程序的行为特征.2)在分析朴素贝叶斯算法和复 合贝叶斯算法¨列的基础上,对特征集进行增量学习,大大提高了分类器学习速度,同时保证精度不降低. 本文对所提出方法的有效性和准确度作了理论上的分析和计算,并且对所得到的模型进行了实验测试. 在实验中使用了2995个实验样例,取得了96%的分类精度,其中对已知恶意代码的分类精度达到99%, 这个结果和文献[8-9]的效果接近,但学习速度快. 1构造特征集 特征集,的选取直接影响到分类器的分类精度.特征项可以采用资源描述符、字符串和机器码3种 收稿日期:2009.04.03. 自然科学基金资助项目(4102012);国家自然科学基金资助项目. 作者简介:赖英旭(1973一).女.辽宁抚顺人,副教授. 第5期 赖英旭,等:改进贝叶斯算法在未知恶意软件识别中的研究 767 描述方式.考虑到大部分恶意代码都经过了加压和加壳处理,以达到隐蔽目的,如果对加壳文件进行脱壳 处理,会出现可执行(portableexecute,PE)文件头被破坏的现象.PE文件头中包含着调用的应用程序编程 接口(applicationprogramming 符作为特征.机器码描述方式通常采用n—gram滑动窗口提取出固定长度的机器码串,因为机器码没有实 际意义,所以在特征过滤时没有非常好的策略.本文采用的方法是提取样本集中的字符串作为特征集. 数量是巨大的,直接影响着分类器的学习速度,也易使数据库过于庞大,所以需要选择一种恰当的方法把 这些无意义的字符串过滤掉. 本文选用了计算机字典进行过滤,字典内容包含7336个条目:计算机常用英语单词,包括常用计算 机英语缩写;特别的计算机单词,如“QQ”

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档