- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习在病毒检测中的应用
0 恶意软件检测
互联网技术改变了人们的生活和工作。然而, 人们在享受互联网提供的便利的同时, 也承受着恶意程序带来的威胁。在数字化时代的今天, 与恶意程序的对抗已成为信息领域的焦点。近年来, 由于机器学习能够很好地解决恶意软件检测问题, 因而受到了广泛的关注。为了进一步提高恶意软件的检测性能, 本文将机器学习中最新提出的动态集成选择应用到恶意软件检测中。
1 算法的背景
1.1 恶意软件检测技术
恶意软件最早出现在上个世纪八十年代, 它是一种利用计算机软、硬件所固有的脆弱性所编制的具有破坏功能的程序。随着个人计算机的普及和网络技术的迅猛发展, 一方面, 信息技术已深入到社会各个领域, 人们享受着这些信息技术带来的巨大进步;另一方面, 计算机病毒的数量和种类日益增多, 人们又不得不面对着越来越严重的信息安全威胁, 特别是计算机病毒、蠕虫和木马等各种恶意软件带来的安全威胁。
恶意软件检测技术特别是未知恶意软件的检测已成为当前网络安全技术领域内的一个研究热点, 目前已有的各种检测技术如启发式代码扫描、基于免疫原理的病毒检测技术和基于程序行为的病毒检测技术等各有特点, 但是应用起来仍然不够成熟, 且均有其局限性。比如基于行为特征的检测方法无法对抗垃圾行为插入等行为混淆方法的干扰。针对传统方法的这些缺陷, 机器学习成为恶意软件检测的新方向。基于机器学习的检测恶意软件技术主要通过学习恶意软件和正常程序的差异性发现有关的识别模式, 并利用这些模式进行相似性分类以发现含有类似模式的恶意软件。这种方法不仅能够检测出未知恶意软件, 对于混淆变形的恶意软件也有较高的检测率, 已成为恶意软件检测发展的重要方向。
对恶意软件检测问题, 由于当前各种恶意软件的个性化差异极强, 使用同一组分类器组成集成分类器检测, 显然不能满足实际需求。而动态集成选择针对每一个恶意软件的特殊性, 动态地选择不同的集成分类器, 因而更适合恶意软件的检测。与此同时, 针对恶意软件检测的实时性需求, 本文提出了一种新的动态集成选择策略用于恶意软件检测。
1.2 静态集成选择方法
本文将机器学习领域中最新的动态集成选择学习的方法引用到未知恶意软件检测中。尽管动态集成选择方法能够提高分类性能, 但是由于该策略在测试阶段要为每一个测试样本选择分类器, 不能满足恶意软件检测的实时性需求。基于此, 本文提出了基于聚类的动态集成选择方法CDES用于恶意软件检测。相比于传统的动态集成选择, 基于聚类的动态集成选择方法通过分析训练样本得到一个分类模型, 利用该模型对测试样本库中的样本进行分类和预测, 并对已知恶意软件构造分类自动推导出给定样本的推广描述, 从而能对未知恶意软件进行预测。该方法在训练阶段完成了分类器的选择, 因而在测试阶段可以满足检测的实时性需求。
将机器学习方法应用于实际分类问题时, 通常可以分为两步, 即训练和分类预测。训练过程通过对训练集进行特征提取, 用样本的特征属性构造一个分类器。训练集通常是由包含一组特征属性的训练样本组成, 每个训练样本属于一个预定义的类别, 由类标签标记。分类预测就是利用训练得到的分类器模型对新样本所属的类别进行判决。这个过程描述的是单个分类器的训练和分类流程。但是在实际应用中, 单一的分类器往往不能完全解决所面临的问题。而集成学习可以把若干个分类器以一定的方式融合, 通过对多个分类器的分类结果进行某种组合以实现对新数据的分类, 能够取得比单个分类器更好的性能。这里, 单个分类器之间的独立性和差异性越大, 该集成系统的泛化能力就越强, 即根据已有训练数据集建立的分类器能够更好地分析和处理新数据。
2 相关技术的总结
2.1 子分类器集成学习
集成学习
一个集成系统通常由两部分组成:子分类器的产生方式和多个预测结果的合并策略。接下来将从这两方面分别介绍。
1) 集成学习中子分类器生成方式
在构建集成学习机时, 子分类器的准确性和它们之间的多样性是两个重要因素。集成学习系统中子分类器的构造主要可以分为两类:
(1) 基于不同训练数据集的构造方式
这种方式将同一学习算法应用于不同的训练集。首先通过划分训练样本集合产生多个训练样本子集, 学习算法分别在这些子集上进行训练, 然后生成多个子分类器。这种方式有两种不同的划分方法。一种是将数据集划分成若干个组, 利用每一组数据分别训练分类器, 然后通过组合这些分类器, 得到一个集成学习机。另一种方法则是通过随机抽样技术产生训练样本集合。对于相同的原始训练集, 通过采用不同的抽样技术产生多个训练数据集, 然后使用特定的学习算法训练多个子分类器, 得到一个集成学习系统。这类方法有代表性的算法主要有基于Bagging
(2) 基于不同特征集的构造方式
这种构造方式实际上也是一种基于不
原创力文档


文档评论(0)