- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于扩展K均值算法入侵检测模型
基于扩展K均值算法入侵检测模型
摘要:该文提出了一个基于扩展K均值算法的入侵检测模型。首先介绍了入侵检测研究的发展概况以及K均值算法及其扩展版本。接着描述了基于扩展K均值算法的入侵检测模型。最后,通过实验仿真利用KDD Cup1999数据集对模型的效能进行了验证。
关键词:入侵检测;网络安全;扩展K均值算法;数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)14-3267-03
保障计算机网络的安全无论对于维护国家正常的经济秩序还是对于维护广大因特网用户的隐私都是十分重要的。入侵检测是通过统计与分析系统中的各项参数值来判断系统是否被入侵的一种技术,是网络安全研究领域的一个热门。
可以把入侵检测看成是一个分类问题——将搜集的数据进行分类:什么样的数据代表系统正常,什么样的数据代表系统被监视与探测,什么样的数据代表系统遭受拒绝服务攻击,什么样的数据代表系统中发生非法提权行为等。Anderson【1】提出了入侵检测的概念。Forrest【2】等人把入侵检测和生物免疫进行类比,区分“自我”(正常)和“非自我”(不正常)。W.Lee【3】探讨了入侵检测系统利用数据挖掘方法的实现。以上方法都需要完备的审计数据才能达到比较高的性能,并且训练时间较长。
将扩展的K均值算法应用到入侵检测中,可以克服上述缺点。该文首先介绍了K均值算法及其扩展版本,然后描述了基于扩展K均值算法的入侵检测模型,最后通过实验仿真用KDD Cup1999数据集详细讨论了模型的工作过程,并对模型的效能进行了验证。
1 算法
1.2 K均值算法
K均值算法的基本思路是首先随机选取K个数据当做初始聚类中心,然后计算其他每个数据到每个聚类中心的距离,把数据归到与他最近的聚类中心的聚类中;对生成的聚类重新计算中心,相邻两次计算的聚类中心如果相同,则说明数据的聚类结束。否则进入下一次迭代。流程如下:
输入:聚类的个数k和n个对象的数据集
1.3 K均值算法的扩展
本文中对K均值算法进行了两方面的扩展,第一是对聚类结果进行层次聚类,生成一个聚类树。第二是给K均值算法添加分类功能。??扩展算法只适用于训练数据都已被标记分类的情况。
1.3.1 聚类树的生成
对于一次聚类而言,它的结果包含了多个划分,每个划分表示一个子类。每个子类中可能只含有一种类别的数据,也可能包含多种类别的数据。对于后一种情况而言,子类中包含干扰数据,用一种类别来对该子类进行最终标记并不完善。因此判断一个子类是否可以代表一种类别,是否需要对该子类进行再聚类,需要引入聚类精度的概念。
聚类精度的计算步骤如下:
1.3.2 数据匹配分类
为待检验数据预测类别的过程实际上就是在聚类树中为这条待检验数据寻找距离最近的节点的过程。从聚类树的根节点开始,不断地向下寻找距离最近的节点。具体步骤如下:
1)判断当前节点是否为叶子节点,若是,则当前节点的类别即是待检验数据的类别;否则,继续下面的步骤。
2)计算出当前节点与待检验数据之间的距离MinDistance。
3)判断当前节点是否有孩子节点,若有,继续下面的步骤;否则跳到第(7)步。
4)在当前节点的孩子节点中找出距离最近的节点,记为TempNode。
5)计算TempNode与待检验数据之间的距离TempDistance。
6)将MinDistance的值更新为TempDistance,并将TempNode设置为当前节点,然后跳至第(3)步。
7)当前节点的类别就是待检验数据的类别。
2 基于扩展K均值算法的入侵检测模型
数据预处理的作用是对数据进行清洗和变换。由于K均值算法只能对数值型维数相同的向量进行分类,而原始数据中的数据属性可能不是数字类型的,所以必须转换。整个模型的工作过程分为两大阶段:在训练阶段,根据已经标记好的数据来生成聚类树。在检测阶段,通过分类器对待检测数据进行分类,最后将分类结果输入数据库中。
3 实验仿真
本文选用KDD Cup1999数据集进行仿真。此数据集是ACM 第三届KDD竞赛所用数据集。该数据集通过记录一个模拟的军事网络环境下的9周的局域网原始TCP dump数据,生成了大约700万条连接记录。此数据集分为两部分。训练数据集部分用于提取数据特征,生成检测模型;测试数据集部分用于验证模型的效能。
KDD Cup199910%数据集对每一条连接记录都进行了分类(label)。所有记录分为正常(normal)与攻击(attack)两大类,其中攻击又可以进一步分为以下4种类型:
1)DOS:拒绝服务攻击,如SYN Flood攻击。
文档评论(0)