k―means算法在网络入侵检测中的应用研究.docVIP

下载本文档

21
0
约4.54千字
约 7页
2016-09-16 发布于北京
举报
版权申诉

k―means算法在网络入侵检测中的应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

k―means算法在网络入侵检测中的应用研究.doc

k―means算法在网络入侵检测中的应用研究　　摘要：介绍了网络入侵检测技术，阐述了kmeans算法及其思想，并把kmeans算法用于网络入侵检测中。实验中采用KDD Cup 1999数据集进行实例验证，结果表明该算法是可行的。　　关键词：网络；入侵检测；kmeans算法；漏报率；误报率　　中图分类号：TP309.5 文献标识码：A 文章编号2013）002012403 　　0 引言　　入侵检测（Intrusion Detection）是通过从计算机网络或系统中的若干关键点收集信息，并对这些信息进行分析，从而发现网络或系统中是否有违反安全策略的行为和遭到袭击的对象。入侵检测系统是防火墙的合理补充，帮助系统对付网络攻击。评判入侵检测系统的参数主要有两个：漏报率和误报率。漏报率是指将本来是入侵的行为判为正常的比率；而误报率是指将不是入侵行为错检为入侵的比率。　　k-means算法把相似数据划分到同一聚类中，不相似数据划分到不同的聚类，并为这些聚类加以标记表明它们是正常还是异常，然后将网络上数据划分到各个聚类中，根据聚类的标记来判断网络数据是否异常。　　1 网络入侵检测技术　　入侵检测是通过搜集和分析网络行为、安全日志、审计数据、其它网络上可以获得的信息以及计算机系统中若干关键点的信息，检查网络或系统中是否存在违反安全策略的行为和被攻击的迹象。入侵检测作为一种积极主动的安全防护技术，提供了对内部攻击、外部攻击和误操作的实时保护，在网络系统受到危害之前拦截和响应入侵。通常，入侵检测的实现包括监视、分析用户及系统活动；系统构造和弱点的审计；识别反映已知进攻的活动模式并向相关人士报警；异常行为模式的统计分析；评估重要系统和数据文件的完整性；操作系统的审计跟踪管理，并识别用户违反安全策略的行为。　　入侵检测是防火墙的合理补充，帮助系统应对网络攻击，扩展了系统管理员的安全管理能力，提高了信息安全基础结构的完整性。它从计算机网络系统中的若干关键点搜集信息，并分析这些信息，看看网络中是否有违反安全策略的行为和遭到袭击的迹象。入侵检测被认为是防火墙之后的第二道安全闸门，在不影响网络性能的情况下能对网络进行监测，从而提供对内部攻击、外部攻击和误操作的实时保护。　　入侵检测的行为规则库是由大量的特征码组成，当进行入侵检测时就是通过对网上截取的数据进行分析，并与规则库中的特征码进行匹配，确定数据的类型是正常类型还是攻击类型，若是新的未知攻击类型，则会加入规则库中形成规则库的一部分。　　本文中的数据包的获取主要来源于KDD Cup 1999数据集（http：//archive.ics.uci. edu/ml/databases/kddcup99/kddcup99.html），它记录了美国空军军事网络环境下的局域网连续9周的流量数据，大约700万条的连接记录。文章通过对截获的数据包进行分析，将分析的结果与规则库进行匹配，得出正常的数据类型和攻击的数据类型。　　2 kmeans算法　　kmeans算法是一种基于划分方法的聚类分析方法，该算法的基本思想是，以k为参数，把n个对象划分成C个簇，以使簇内具有较高的相似度，而簇间的相似度较低。相似度的计算根据簇的重心，其值用簇中各对象的平均值来计算。首先从数据集中随机选取C个点作为初始聚类中心，然后对剩余的每个对象，根据其与各个簇中心的距离，将它赋予最近的簇。重新计算每个簇的平均值来找簇的重心，如此反复，直到准则函数收敛为止。　　kmeans算法易于实现，但在对初始聚类中心数目k进行设置时，选取不同的k值，聚类结果也大不相同。KDD Cup 1999数据集除了包含大量的正常数据外，还包含多种攻击数据。因此，在使用算法对数据集进行聚类分析时，无论k值如何选取，仅一次聚类是远远不够的。为了获得更加精确的聚类结果，需要进行多次聚类。对一次聚类而言，它的结果包含了多个划分，每一个划分表示一个子类。每一个子类中可能只包含一种类别的数据，也可能包含多种类别的数据。对于前一种情况而言，说明该子类已经从其他数据中划分出来，代表了唯一的一种类别；而对于后一种情况而言，子类中包含干扰数据，不能用一种类别来对该子类进行标记。　　聚类精度是指一个聚类中干扰数据占主类别数据的比例。聚类精度的大小直接决定了一个聚类是否需要再次使用kmeans算法进行聚类分析。但是如何设定聚类精度一直是影响入侵检测模型准确性的重要因素。聚类精度设置过高，会造成类别划分不准确的问题。一个聚类中往往会包含多种类别的数据。这些干扰数据越多，入侵检测模型的准确度就越低。合理地选择聚类精度的标准有助于建立高效、准确的入侵检测模型。　　此外，采用kmeans算法进行多次聚类是一个自动