特征提取与两种BP 算法在入侵检测中对比.docVIP

特征提取与两种BP 算法在入侵检测中对比.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征提取与两种BP 算法在入侵检测中对比

特征提取与两种BP 算法在入侵检测中对比   摘要:针对海量的等保测评数据,如何从这些数据中选取适量的数据进行入侵行为分析,提出了根据预测变量对预测目标变量的重要性的特征提取方法。该方法采用importance指数来对预测变量进行等级划分。并选取了一些预处理后的数据运用了两种BP算法——标准BP算法和学习速率自适应调整算法进行了系统仿真预测。通过KDDCup99数据集测试表明,后者相对于前者,其学习训练次数大大降低,学习能力和预测准确率明显提高。   关键词:特征提取;标准BP算法;学习速率自适应调整算法   中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)28-6365-04   随着信息系统等级保护工作的深入开展,将产生海量的测评数据,尤其是主机和网络数据的数据量非常大 [1]。但如何利用这些数据来检测系统是否遭到攻击,这就需要对数据进行特征提取。文中以KDDCup99数据为例,阐述了如何从海量数据中,根据预测变量对预测目标变量的重要性,提取出重要程度大的特征值,也就是确定了哪些字段来参与数据建模。然后在这些数据的基础 上,采用两种BP算法,利用BP神经网络,对这些攻击行为进行预测结果对比。   1 系统特征信息提取   1.1 KDDCup99数据   KDDCup99数据集[2]是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。训练数据包含了将近五百万条连接记录,测试数据包含了二百万条的连接记录。但是测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。[3]   1.2 特征提取   KDDCup99训练数据集中每个连接记录包含了41个固定的特征属性和1个类标识。[4]为了特征提取的方便,把41个固定的特征属性分别用字段来表示,并把它们作为预测变量;把类标识用字段A42表示,并把它作为预测目标变量。然后根据预测变量对于预测目标变量值的重要程度来进行分级,并用importance指数[5]来表示这个重要程度。但是所有预测变量的值有些是连续型,有些是离散型,那么对于连续型预测变量采用基于F统计[6]的p值来计算importance指数;对于离散型变量,则用基于皮尔逊卡方[7]的p值来计算importance指数。这里importance指数的阈值设定如下:   1)重要。0.93≤importance≤1;   2)一般重要。0.9   2.3.3 预测结果分析   实验中,共收集了200例数据,其中导致异常程序行为的程序输入80例.具体实验时,将80例异常数据平均分为两部分,其中40例与正常的120例数据一起用于训练神经网络,另外40例异常数据用于测试.根据表3知,当隐层8结点数为7时的BP神经网络表现最好。因此在测试过程中选取了隐含层层数为7层时的BP神经网络作为测试网络。在训练好后的网络中将40例异常数据分别输入到采用标准BP算法和学习速率自适应调整算法的BP神经网络中进行测试,得到的结果如图2和图3所示。   由图2和图3结果表明,采用学习速率自适应调整算法的BP神经网络进行入侵检测时,预测值与实际值完全相符的点数为28,比标准BP网络要多3倍以上;逼近值也比标准BP网络更接近1,其逼近值在0.8~0.9之间的有9个,其余3个的逼近值皆在0.99~1之间。根据测试实验时设置的精确度为0.01,可以得到表3这个结果。 表中   实验结果表明,在入侵行为比较清晰的情况下,学习速率自适应调整算法在BP神经网络中的预测结果比标准BP算法的预测结果要准确的多;在BP神经网络中使用学习速率自适应调整算法作为入侵检测的一种方法,灵活性更好、自适应能力更强、预测精度更高。但是整个预测准确率也不是很理想,这可能由以下原因造成:   1)训练期间,神经网络已被训练得过渡吻合;   2)训练迭代次数过多;   3)用于训练的特征属性选取不合理;   4)推导出的规则的选择数量过多,例如只选用质量最好的头20条,而不是40条。   3 结束语   本文从等保测评产生的海量数据入手,以KDDCup99数据为例,给出了特征提取的规则,又对提取出来的特征值选取了一定数量的数据运用了两种BP算法进行了入侵检测,并对结果进行了比较和分析。学习速率自适应调整算法相对标准BP算法,缩短了训练时间,提高了学习效率,又增加了算法的可靠性,降低了入侵检测中的误报率,大大提高了入侵检测的性能。   参考文献:   [1] 吴涛.建设符合等级保护要求的信息安全体系——电子政务信息系统等级保护工作的研究与探索 [J]. 通信技术,2008,41(9):196-198.

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档