- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进贝叶斯算法在未知恶意软件识别中的研究-北京工业大学学报
第37卷第5期 北京工业大学学报 V01.37No.5
OF UNIVERSITYOFTECHNOLOGY Mav20lI
2011年5月 JOURNALBEIJING
改进贝叶斯算法在未知恶意软件识别中的研究
赖英旭,杨 震
(北京工业大学计算机学院,北京 100124)
摘要:为改进朴素贝叶斯(naiveBayes,NB)算法在识别未知恶意代码过程中学习速度慢的缺点,在分析研究
朴素贝叶斯算法、复合贝叶斯(multi-naive
naive
Bayes。HNB)算法.算法采用特征集增量学习方式,在保证分类精度不降低的前提下,学习速度提高约
30%.实际样本测试表明,分类精度达到了96%。其中对已知恶意代码的分类精度达到99%.
关键词:分类器;数据挖掘;贝叶斯算法
中圈分类号:TP309.5 文献标志码:A 文章编号:0254—0037(2011)05—0766一07
因特网的发展和普及给人们交流信息带来便捷的同时,也为恶意代码的快速蔓延提供了平台.识别
恶意代码的传统方法是特征检测法,但此方法只能检测已知恶意代码,对未知恶意代码无能为力….这是
有界长度病毒的可靠检测是一个多项式复杂程度的非确定性问题(non-deterministic
polynomial,NP)问题.
因此,人们致力于研究新方法来检测未知恶意代码并将其消除.
序并得到了验证.随着数据挖掘方法在入侵检测中取得了非常好的效果怕。’,Schultz旧。等将数据挖掘中的
RIPPER、朴素贝叶斯(naiveBayes,NB)算法、复合贝叶斯(multi.naiveBayes,MNB)算法用于检测多种类
型的未知恶意代码,测试结果表明复合贝叶斯的分类效果高于其他方法.遵循上述思想,Koher一’和
恶意代码检测,取得了较好的结果.在上述算法中提取的特征基本上都采用,t-gram机器码,特征数量巨
大,分类器学习速度较慢.
本文在文献[8.9]的基础上做了2处改进:1)提取字符串作为特征,这样比只使用头部信息(DLL名
等)作为特征有了更高的可靠性.因为头部信息在脱壳时极易被破坏;同时由于字符串的长度不是固定长
度,比采用固定长度n—gram滑动窗口选取特征更能反映程序的行为特征.2)在分析朴素贝叶斯算法和复
合贝叶斯算法¨列的基础上,对特征集进行增量学习,大大提高了分类器学习速度,同时保证精度不降低.
本文对所提出方法的有效性和准确度作了理论上的分析和计算,并且对所得到的模型进行了实验测试.
在实验中使用了2995个实验样例,取得了96%的分类精度,其中对已知恶意代码的分类精度达到99%,
这个结果和文献[8-9]的效果接近,但学习速度快.
1构造特征集
特征集,的选取直接影响到分类器的分类精度.特征项可以采用资源描述符、字符串和机器码3种
收稿日期:2009.04.03.
自然科学基金资助项目(4102012);国家自然科学基金资助项目.
作者简介:赖英旭(1973一).女.辽宁抚顺人,副教授.
第5期 赖英旭,等:改进贝叶斯算法在未知恶意软件识别中的研究 767
描述方式.考虑到大部分恶意代码都经过了加压和加壳处理,以达到隐蔽目的,如果对加壳文件进行脱壳
处理,会出现可执行(portableexecute,PE)文件头被破坏的现象.PE文件头中包含着调用的应用程序编程
接口(applicationprogramming
符作为特征.机器码描述方式通常采用n—gram滑动窗口提取出固定长度的机器码串,因为机器码没有实
际意义,所以在特征过滤时没有非常好的策略.本文采用的方法是提取样本集中的字符串作为特征集.
数量是巨大的,直接影响着分类器的学习速度,也易使数据库过于庞大,所以需要选择一种恰当的方法把
这些无意义的字符串过滤掉.
本文选用了计算机字典进行过滤,字典内容包含7336个条目:计算机常用英语单词,包括常用计算
机英语缩写;特别的计算机单词,如“QQ”
您可能关注的文档
- 我心中的英语教学.DOC
- 我瓦良格航母2011年11月29日出海第二次海试.PPT
- 我用电脑学画画.PPT
- 我要吃寿司学习单班级-十二年国民基本教育国中教师有效教学深耕.PDF
- 我的居室设计图.PPT
- 我要晒课按钮.PPT
- 战争历史实地考察一-香港教育城.PDF
- 战略动态2017年第一情报-上海情报服务平台.PDF
- 战略规划城规划法规划图则条例规划编制办法法定图则总体规划.PPT
- 房地产策划师基础知识-红软基地.PPT
- 小学心理健康教育课程与社会主义核心价值观的融合研究教学研究课题报告.docx
- 小学社会课中公民意识教学中角色扮演法的实践教学研究课题报告.docx
- 《美容美发行业连锁经营模式中的技术创新与产品升级策略研究》教学研究课题报告.docx
- 小学体育趣味田径赛提高运动技能与创新发展能力教学研究课题报告.docx
- 探索初中科学课程中3D打印技术的应用与教学策略教学研究课题报告.docx
- 《地下空间防水防渗技术在地下空间开发中的法律法规研究》教学研究课题报告.docx
- 《建筑节能保温材料对室内热舒适性的影响研究》教学研究课题报告.docx
- 个性化学习平台在初中物理教学中的实施策略研究教学研究课题报告.docx
- 小学政治课堂上的国家制度运行考察教学研究课题报告.docx
- 芬迪FENDI品牌短视频脚本策划方案.pptx
最近下载
- 07米联客2020版FPGA教程(FT60X篇).pdf
- (完整)混凝土回弹强度自动计算EXCEL表.xls VIP
- 《 房地产企业税制改进政策研究》范文.docx VIP
- 房产抵押合同范本6篇 .pdf VIP
- 工业机器人系统操作员(技师)理论复习考试题库(附答案).docx
- 山东省中小学教师人工智能赋能教学教研线上研修活动单元测试答案.docx VIP
- 变电站水泥电线杆防腐加固工程施工组织设计方案(可编辑).doc VIP
- 第11课 近代职业教育的兴起和发展(教学设计)-【中职专用】《世界历史》.docx
- 关于延长中频炉炉衬寿命的探讨.pdf
- 核心素养导向下的小学科学教学改革研究教学研究课题报告.docx
文档评论(0)