基于混合数据挖掘方法入侵检测算法研究.docVIP

基于混合数据挖掘方法入侵检测算法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于混合数据挖掘方法入侵检测算法研究

基于混合数据挖掘方法入侵检测算法研究   【 摘 要 】 入侵检测技术是一种主动保护自己免受攻击的网络安全技术,入侵检测系统处于防火墙之后,在不影响网络性能情况下对网络活动进行实时监测。传统的入侵检测系统面对海量的信息数据,不能及时有效地分析处理这些数据,而数据挖掘技术的运用正好能够满足入侵检测系统的要求,合理的分析数据,有效处理数据。文章针对目前入侵检测系统中存在的一些问题,重点阐述了数据挖掘算法在异常检测和误用检测中的具体应用。对于异常检测,主要运用了分类算法;对于误用检测,主要运用了聚类算法、关联规则和孤立点等算法。最后根据基于数据挖掘的入侵检测系统的主要优点对目前数据挖掘算法在入侵检测中应用所面临的难点进行了分析,并设计了国内第一个数据挖掘混合技术的入侵检测算法实例。   【 关键词 】 网络安全;入侵检测;数据挖掘;关联规则;聚类 【 中图分类号 】 TP391   1 引言   随着计算机网络在现代社会中发挥愈来愈重要的作用,利用计算机技术对网络进行攻击已呈现出多样化、多元化的状态,如何建立安全而又健壮的网络系统,保证重要信息的安全,已经成为研究的焦点。   2 混合数据挖掘技术ID3算法简述   对给定的训练数据集S,设目标属性具有n个不同的值,即定义了n个不同的类Ci(i=1,2,…,n),用|S|表示训练样本数,| Ci |表示类Ci中的样本数(i=1,2,…,n), Pi表示任意样本属于Ci的概率(用| Ci | / |S|估计),分类所需要的期望信息(信息熵):   Info(S)=entropy( P1,P2 ,…, Pn )=-P1 log2 P1- P2 log2 P2 -…- Pn log2 Pn =- (log2 )   设属性A有k个不同取值{a1, a2, …, ak},可用属性A将S划分为k个子集{s1, s2, …, sk}(其中sj由属性A取值为aj的样本构成),若用A作节点属性,| sij |表示子集sj中属于类Ci的样本数,则根据A划分S成子集的期望信息为:   Info(S,A)=-log2   这个熵值越小,子集划分的纯度越高。   由于属性A对与分类提供了信息,样本分类的熵值发生了变化,熵的变化量称为属性A对于分类的信息增益(information gain),记为Gain(A) 。   Gain(A)=Info(S)-Info(S,A)≥0   以上算法混合了数据挖掘的两种基本算法,分别在入侵检测、入侵判定中使用。   3 数据挖掘在入侵检测中的应用   我们拟合了一个简单的数据挖掘的入侵检测算法,主要是基于序列分析及分类分析两种算法进行混合。   3.1 基于序列分析的入侵检测技术   序列分析的目的是发现序列模式。序列模式与关联模式相仿,不同的是它处理不同记录之间属性集的关联关系,把数据之间的关联性与时间联系起来。序列模式分析的侧重点在于分析数据间的前后序列关系。序列分析描述的问题是:在给定交易序列数据库中,每个序列按照交易时间排列成一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回出现的高频序列。例如入侵行为发生的先后关系常常有一定的规律,黑客在入侵前先进行端口扫描然后再进行猜测密码的攻击的过程就可以用序列模式来描述。   (1)挖掘序列模式的基本步骤。   第一步,排序阶段,以事务的主题为主键,事务时间为次键,对原始数据库进行排序,将其转换为主体序列的数据库。   第二步,大数据项阶段,找出所有的大数据项集L,并把大数据项集映射为一组相邻的整数,每个大数据项对应一个整数。   第三步,转换阶段,将数据库中主体序列的每一次事务用该事物包含的大数据项集Itemsets代替。   第四步,序列阶段,利用大数据项集发掘序列模式。   第五步,序列最高化阶段找出所有序列模式的最高序列集。   (2)序列模式分析在入侵检测中的应用。   序列模式分析主要用于发现形如“在某段时间内,有数据特征A出现,然后出现了特征B,而后特征C又出现了,即序列 A→B→C出现频度较高”之类高频序列信息。它主要挖掘安全事件之间先后关系,运用序列分析发现入侵行为的序列关系,从中提取出入侵行为之间的时间序列特征。序列模式分析一般不单独使用,它可用于入侵检测过程的某一步骤,从数据中挖掘用户序列模式,提取出可用于入侵检测的知识和模式。如对网络连接数据进行序列分析,正确提取出一些基于时间的统计属性,以便能构造出分类模型,它对反复出现的序列检测率较高。   3.2 基于分类分析的入侵检测技术   数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类的过程。分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述(

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档