基于主成分分析禁忌搜索和决策树分类的异常流量检测方法.docVIP

下载本文档

1
0
约8.24千字
约 13页
2016-09-24 发布于北京
举报
版权申诉

基于主成分分析禁忌搜索和决策树分类的异常流量检测方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于主成分分析禁忌搜索和决策树分类的异常流量检测方法.doc

基于主成分分析禁忌搜索和决策树分类的异常流量检测方法　　摘要：　　真实网络流量包括大量特征属性，现有基于特征分析的异常流量检测方法无法满足高维特征分析要求。提出一种基于主成分分析和禁忌搜索（PCATS）的流量特征选择算法结合决策树分类的异常流量检测方法，通过PCATS对高维特征进行特征约减和近优特征子集选择，为决策树分类方法提供有效的低维特征属性，结合决策树分类精度和处理效率高的优点，采用半监督学习方式进行异常流量实时检测。实验表明，与传统异常检测方法相比，此方法具有更高的检测精度和更低的误检率，其检测性能受样本规模影响较小，且对未知异常可以进行有效检测。　　关键词：异常检测；决策树；特征选择；主成分分析；禁忌搜索　　0 引言　　随着网络技术的不断发展和普遍应用，互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生，严重威胁着网络的正常使用。因此如何及时有效地检测网络异常，保证安全的网络环境具有重要的意义。　　网络流量异常检测方法主要包括两种：统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性，而检测精度较低，尤其对许多隐蔽攻击无法检测；机器学习方法基于流量特征进行分析检测，由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]：聚类方法具有无需事先样本的优点，但聚类误差导致检测精度较低；分类方法需要事先进行训练，通过训练模型进行检测，这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中，特征属性选择对分类精度具有重要影响[7]，实际网络流量维数较高，高维数据无法应用于传统分类算法中，文献[8-10]分别采用支持向量机（Support Vector Machine，SVM）、K最近邻（KNearest Neighbor，KNN）和C4.5算法进行分类检测时都采用低维特征，由于其对特征属性的选择不能较好表征网络流量，造成分类精度较低，影响了检测效果。文献[8]采用SVM方法进行异常分类检测，但SVM适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度，但基于“离线训练，在线检测”的机制下，由于KNN方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测，但C4.5根据信息增益率进行节点划分，由于增益值的不稳定导致分类误差较大。　　基于此，本文提出了一种基于主成分分析和禁忌搜索（Principal Component Analysis and Tabu Search，PCATS）结合基于最短距离划分决策树（MinDistance Decision Tree， MDDT）分类的异常流量检测方法，通过PCATS方法来减少高维特征空间冗余和选择最优特征子集，为分类检测提供低维和有效的流量属性，结合决策树检测实时性高的特点，该方法可以有效地进行网络流量异常实时检测。　　1 相关研究　　1.1 基于PCATS的特征选择方法　　1.1.1 主成分分析算法　　主成分分析（Principal Component Analysis， PCA）是统计学中分析数据的一种有效方法，主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换，将一个数据维数较高且互相关联的数据集进行降维。通过PCA降维后，将原始空间转换为新的主成分空间，且各主成分互不相关。　　假设含有N个样本的网络流量数据集X={x1，x2，…，xm}∈Rn，其中：Rn为特征空间，m为特征维数。求得变量空间Z={z1，z2，…，zk}，满足km且cov（zi，z其中R为特征贡献率阈值，特征维数m选择根据R来确定，一般选择R为85%～95%。　　在使用PCA进行分析时，由于数据中不同的变量往往有不同的量纲，会引起各变量取值的分散程度差异较大，从而影响计算精度。为了消除由于量纲的不同可能带来的影响，首先需要对变量进行标准化处理，然后利用PCA进行降维。　　0 引言　　随着网络技术的不断发展和普遍应用，互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生，严重威胁着网络的正常使用。因此如何及时有效地检测网络异常，保证安全的网络环境具有重要的意义。　　网络流量异常检测方法主要包括两种：统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性，而检测精度较低，尤其对许多隐蔽攻击无法检测；机器学习方法基于流量特征进行分析检测，由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]：聚类方法具有无需事先样本的优点，