基于主成分分析禁忌搜索和决策树分类的异常流量检测方法.docVIP

基于主成分分析禁忌搜索和决策树分类的异常流量检测方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主成分分析禁忌搜索和决策树分类的异常流量检测方法.doc

基于主成分分析禁忌搜索和决策树分类的异常流量检测方法   摘 要:   真实网络流量包括大量特征属性,现有基于特征分析的异常流量检测方法无法满足高维特征分析要求。提出一种基于主成分分析和禁忌搜索(PCATS)的流量特征选择算法结合决策树分类的异常流量检测方法,通过PCATS对高维特征进行特征约减和近优特征子集选择,为决策树分类方法提供有效的低维特征属性,结合决策树分类精度和处理效率高的优点,采用半监督学习方式进行异常流量实时检测。实验表明,与传统异常检测方法相比,此方法具有更高的检测精度和更低的误检率,其检测性能受样本规模影响较小,且对未知异常可以进行有效检测。   关键词:异常检测; 决策树; 特征选择; 主成分分析; 禁忌搜索   0 引言   随着网络技术的不断发展和普遍应用,互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生,严重威胁着网络的正常使用。因此如何及时有效地检测网络异常,保证安全的网络环境具有重要的意义。   网络流量异常检测方法主要包括两种:统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性,而检测精度较低,尤其对许多隐蔽攻击无法检测;机器学习方法基于流量特征进行分析检测,由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]:聚类方法具有无需事先样本的优点,但聚类误差导致检测精度较低;分类方法需要事先进行训练,通过训练模型进行检测,这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中,特征属性选择对分类精度具有重要影响[7],实际网络流量维数较高,高维数据无法应用于传统分类算法中,文献[8-10]分别采用支持向量机(Support Vector Machine,SVM)、K最近邻(KNearest Neighbor,KNN)和C4.5算法进行分类检测时都采用低维特征,由于其对特征属性的选择不能较好表征网络流量,造成分类精度较低,影响了检测效果。文献[8]采用SVM方法进行异常分类检测,但SVM适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度,但基于“离线训练,在线检测”的机制下,由于KNN方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测,但C4.5根据信息增益率进行节点划分,由于增益值的不稳定导致分类误差较大。   基于此,本文提出了一种基于主成分分析和禁忌搜索(Principal Component Analysis and Tabu Search,PCATS)结合基于最短距离划分决策树(MinDistance Decision Tree, MDDT)分类的异常流量检测方法,通过PCATS方法来减少高维特征空间冗余和选择最优特征子集,为分类检测提供低维和有效的流量属性,结合决策树检测实时性高的特点,该方法可以有效地进行网络流量异常实时检测。   1 相关研究   1.1 基于PCATS的特征选择方法   1.1.1 主成分分析算法   主成分分析(Principal Component Analysis, PCA)是统计学中分析数据的一种有效方法,主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换,将一个数据维数较高且互相关联的数据集进行降维。通过PCA降维后,将原始空间转换为新的主成分空间,且各主成分互不相关。   假设含有N个样本的网络流量数据集X={x1,x2,…,xm}∈Rn,其中:Rn为特征空间,m为特征维数。求得变量空间Z={z1,z2,…,zk},满足km且cov(zi,z其中R为特征贡献率阈值,特征维数m选择根据R来确定,一般选择R为85%~95%。   在使用PCA进行分析时,由于数据中不同的变量往往有不同的量纲,会引起各变量取值的分散程度差异较大,从而影响计算精度。为了消除由于量纲的不同可能带来的影响,首先需要对变量进行标准化处理,然后利用PCA进行降维。   0 引言   随着网络技术的不断发展和普遍应用,互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生,严重威胁着网络的正常使用。因此如何及时有效地检测网络异常,保证安全的网络环境具有重要的意义。   网络流量异常检测方法主要包括两种:统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性,而检测精度较低,尤其对许多隐蔽攻击无法检测;机器学习方法基于流量特征进行分析检测,由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]:聚类方法具有无需事先样本的优点,

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档