Boosting方法在网络攻击分类中性能分析.docVIP

下载本文档

1
0
约4.44千字
约 9页
2018-08-11 发布于福建
举报
版权申诉

Boosting方法在网络攻击分类中性能分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Boosting方法在网络攻击分类中性能分析

Boosting方法在网络攻击分类中性能分析　　1 引言　　面对日益严峻的网络安全问题，各种安全防御技术已被提出并得以应用。以防范和自我保护为主的被动保护方式，主要包括数据加密、安全路由、访问控制、报文鉴别等，其在有效防范网络攻击上虽有重要作用，但缺少实时发现攻击行为的能力。入侵检测系统通过采集主机审计数据和网络全局流量，来实现关键点的实时监控，并依靠检测分析引擎来发现异常行为，与其他安全技术可有效互补，共同为网络系统提供安全保障[1]。　　检测分析模块的构建是入侵检测技术实施的关键，传统方式下的人工编码，对专家领域知识依赖大，存在效率低、适应性差、不易扩展等缺点。数据挖掘技术用于入侵检测分类建模中，可从训练数据集中自动提取攻击模式，生成分类模型，有效改善了分类建模效率，提高了分类检测准确率。分类模型可以判定用户行为是否异常，在两类行为的区分认识上，不同算法的处理方式不同。常用的分类算法包括NaiveBayes[2]、RIPPER[3]、SVM（支持向量机Support Vector Machine）[4]等。　　Boosting方法属性能提升算法[5]，通过多次迭代来改善基分类器的分类性能，本文将NaiveBayes、RIPPER和SVM作为Boosting方法的基分类算法，在KDD CUP99数据集上加以应用，通过分类结果的相关性能比较来分析Boosting算法的提升效果，并进一步给出更适合于KDD CUP99的基分类算法。　　2 分类算法原理分析　　分类属数据挖掘中的预测任务，是根据其他属性值来预测离散的目标属性值。在KDD CUP99中，目标属性是class，取离散的23种类型。分类之前，需要事先产生一个分类模型，不同分类算法学习到的分类模型也不同。　　2.1 NaiveBayes算法原理分析　　NaiveBayes为贝叶斯分类的一种，其基于统计学原理，通过事件的先验概率，来获得事件可能所属每类的后验概率，选最大后验概率的对应类作为该事件的所属类。　　对于KDD CUP99数据集，NaiveBayes引入条件概率来量化数据集的样本类序列中，出现某类攻击事件的概率，该条件概率记为P（Itr | Evt），Evt表示样本类序列，Itr表示某类攻击事件。使用Bayes公式可得出P（Itr | Evt）的值，如公式（1）所述：　　P（Itr | Evt） = P（Evt | Itr） P（Itr）/ P（Evt）（1）　　P（Evt） = P（Itr） * P（Evt | Itr） + P（┐Itr）* P（Evt | ┐ Itr）（2）　　公式（1）的P（Itr）为先验概率，可依据领域专家经验或数据集的样本分布来给定。P（Evt | Itr）为给定攻击下的事件序列的条件概率，系统全部事件构成了每个攻击的事件序列，进而可算出构成给定攻击的事件序列占全部攻击事件序列的相对概率，即为P（Evt | Itr）。同样，可算得P（Evt | ┐ Itr）的条件概率。　　应用公式（1）和（2），算得P（Itr | Evt）的值，反映了事件序列中存在攻击事件的可能程度。攻击检测中，将取最大P（Itr | Evt）值所对应的Itr作为检测类别。　　NaiveBayes以属性相独立为前提，在属性相关较小的数据集上的性能较好。当属性相关较大或属性较多时，NaiveBayes的分类效果下降。　　2.2 RIPPER算法原理分析　　RIPPER属基于规则的分类算法，通过样本学习可产生类似if cndt1 then class1 elseif cndt2 then class2，…，else default的规则集。if部分为某类的判定条件，then部分为预测类，default为算法定义的默认类。　　在两类问题中，RIPPER选择多数类为默认类，学习少数类的分类规则。在多类问题中，依据类别出现频率的大小，按小到大进行排序，设排序后的类别序列为class1， class2，…， classn，class1代表了极少发生的类，classn为最频繁发生的类，是RIPPER定义的default。　　对于KDD CUP99，RIPPER按类别出现频率递增产生类别序列，并按此顺序为每个类别寻找检测规则，class1的检测规则应可将class1与 {class2，…， class23 }相区分，依此产生其他类别的检测规则。在对用户行为进行检测时，仍按规则顺序进行匹配，匹配项对应的类别即为检测类别，没有满足的规则时，就检测为default。　　RIPPER算法的类别序使得出现频率极小的类在预测时得以关注，在不均衡类分布的数据集中[6]，其分类性能往往优于其他算法。　　2.3 SVM算法