基于欧氏距离和余弦相似度特征选择入侵检测模型.docVIP

基于欧氏距离和余弦相似度特征选择入侵检测模型.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于欧氏距离和余弦相似度特征选择入侵检测模型

基于欧氏距离和余弦相似度特征选择入侵检测模型   摘要:现今,数据挖掘技术已经广泛用于各个领域,得到社会各界的普遍关注。在入侵检测系统中,数据挖掘也已经成为了数据采集的主要技术手段。特征选择则是入侵检测系统中数据挖掘的关键,因为特征选择的好坏会直接影响到系统的检测精度。本文提出了基于欧氏距离和余弦相似度的特征选择方法。这种方法很容易实现,而且实验结果表明,该方法能够提取出一个完备的特征子集,为网络入侵检测建立模型。同时,该方法能够有效地降低误报率,提高入侵检测性能。   关键词:入侵检测系统 数据挖掘 特征选择      0 引言   近年来,网络用户数量持续高速增长,全球大约有超过14亿人在使用网络。同时,越来越多的人们也遭受着各种网络安全问题的威胁。入侵者利用计算机网络系统的漏洞和传统网络安全技术的不足实施入侵行为,我们现在所用到的防火墙、杀毒软件、信息加密、网络安全协议等技术已经不能完全有效地保证计算机网络系统的安全。入侵检测系统能够监听网络,并察觉网络入侵行为或有违网络安全策略的行为,如网络异常行为、授权用户的越权行为和恶意攻击等。因此,入侵检测技术作为对传统网络安全技术的弥补,得到了社会各界的广泛重视。数据挖掘的成功引入,大大提高了入侵检测系统的检测性能。而数据挖掘却极大地依赖于特征的选择。一般使用机器学习的方法进行特征选择,特征选择技术就是为建立学习模型选择原始数据的关键特征子集。   本文正是要利用欧氏距离和余弦相似度来进行特征选择,使得入侵检测系统用较低维度的样本特征代表更多网络连接的信息量。   1 背景   数据挖掘技术的发展使得网络数据的捕获和存取变得更加简单、有效,而如何为实际应用系统将大量的数据转换为可用的信息数据成为了新的挑战。   数据挖掘一个关键的任务就是根据决策进行特征的提取与选择。在文本分类、网络信息采集等领域,许多研究者都将降维技术引入到机器学习和数据挖掘中,而数据降维技术也往往会用到特征的选择。这样处理不仅能够减少特征数量,快速建立模型,而且还可以帮助系统去除一些无关信息、冗余信息和噪声信息。这就使我们能够建立更加简单、有效的分类模型,提高分类器的分类性能。因此,关键属性的选择不论是对完善分类器,还是对数据降维都是至关重要的。   在本文中,为了改进入侵检测的检测性能,我们将应用欧氏距离和余弦相似度进行特征选择。   1.1 入侵检测   现今主要有基于主机的和基于网络的两种形式的入侵检测系统。在基于网络的入侵检测系统(NIDS)中,系统对从网络中捕获的数据包进行分析,会检测到企图绕过防火墙侵入系统内部的数据包,并对其进行响应处理。而在基于主机的入侵检测系统(HIDS)中,系统是通过单个主机上日志文件或者日志数据库进行检测的。入侵检测技术主要有两种:异常检测和误用检测。   异常检测通过设定正常行为模式的偏离值来判断是否有入侵发生。在这里,我们假定所有的入侵行为和越权行为都是偏离正常系统模式范围的。异常检测的优点是,它能够检测到几乎所有来自外部的攻击,漏报率较低;缺点就是,它对于来自内部的攻击却是无能为力。误用检测是通过对已知攻击进行特征提取,建立模型,进行匹配判定的。误用检测的优点是,只要出现攻击特征库里的行为,就判定为入侵,误报率较低;缺点就是,它不能够检测到新的入侵行为方式或者未知的入侵。   事实上,入侵检测系统还有一些不足,特别是误用检测对未知攻击不能进行有效的防范。支持向量机、神经网络、模式识别、专家系统等一些人工智能技术和数据挖掘的应用,使得入侵检测系统得到大幅改善。   1.2 欧氏距离    欧氏距离最多的应用是对距离的测度。大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。从数学的角度来讲,欧氏距离或欧式测度实际上就是两点间的距离。点A=(x1,x2,x3,…,xn)和点B=(y1,y2,y3,…,yn)之间的欧氏距离定义如式(1)所示。   1.3 余弦相似度    余弦相似度是测量两个n维向量之间相似度的一种常见方法。余弦相似度在多种领域都有所涉及,如文本挖掘、信息检索等。    给定两个向量A=(x1,x2,x3,…,xn)和B=(y1,y2,y3,…,yn),θ是两个向量之间的夹角,那么两个向量之间的余弦相似度就定义为:   1.4 数据集    本文采用的数据集是KDD CUP’99数据集,它是1998年DARPA入侵检测评估项目中所选用的数据特征。这个项目是由麻省理工学院林肯实验室和美国国防部高级研究计划局发起和进行的,目的是观察和评估入侵检测系统的研究工作,用一套标准格式的数据来评估各种入侵检测系统的性能。1999年KDD (Knowledge Discovery in Databases)竞赛中在数据

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档