基于集成分类器的流量识别技术研究.docVIP

下载本文档

9
0
约5.3千字
约 4页
2016-07-03 发布于河北
举报
版权申诉

基于集成分类器的流量识别技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于集成分类器的流量识别技术研究

基于集成分类器的流量识别技术研究　　【摘要】本文提出的基于集成分类器的流量识别技术，由针对不同网络应用的基分类器构成，不同基分类器的判断汇总到决策模块输出最终结果，具有良好的可扩展性，便于增添针对新应用的识别模块；在每个基分类器内部，网络流量首先经过聚类形成若干个簇，在每个簇上单独训练一个分类器，分类器专注于学习簇内部的分类边界；通过增加聚类数量，可以提高集成分类的识别准确率。经实验表明，该技术可以提高单一分类方法的准确性。中国论文网 /8/view-7165389.htm 　　【关键词】集成分类器；流量分类；机器学习；流量识别　　0 引言　　近年来随着互联网的飞速发展，各种不同的网络应用层出不穷，网络流量的复杂性和多样性给流量分类带来了巨大挑战。　　实时的流量统计有能力帮助网络服务提供商和设备供应商解决网络管理问题，流量分类是自动入侵检测系统的核心组成部分[1]，用来检测拒绝服务攻击，政府也阐明ISP有责任尊重合法的网络流量监听[2]。　　简单的流量分类技术假定网络应用使用熟知端口。为了避免被这种方法检测，P2P应用使用动态随机端口，并且开始使用HTTP或FTP这样的通用协议端口来伪装自己[3]。然而很多研究[4-5]表明，这种基于端口（Port-based）的流量分类方法被迅速淘汰了。Port-based和Payload-based的局限促进了传输层统计流量分类被提出[6]。　　很多研究人员开始寻找接近于机器学习（Machine learning ML人工智能领域的一个子集）的技术来解决流量分类问题。对网络流量按照应用类型准确地识别和分类是许多网络管理任务的重要组成部分，为了适应网络流量数据庞大，动态变化的特点，利用机器学习方法处理流量分类问题成为新的研究热点。　　1 技术设计　　本文提出了基于应用的集成分类器，为每一个网络应用单独训练一个基分类器，该基分类器只负责判断未知网络流是否属于该应用，不同应用基分类器的训练可以并行处理。并行判断结果汇集到决策模块，最终裁决出一个结果，这个未知的网络流属于哪种应用。　　1.1 总体技术设计　　整个集成分类系统就是由应用基分类器和簇基分类器这两层集成构成的。在训练阶段，每个应用基分类器独立地进行训练，只负责判断一个未知网络流是否属于自己的应用。如图1，HTTP，FTP，LIME应用都单独训练了一个基分类器。　　每一个未知的网络流并行地提交给每一个应用基分类器，它们的判断汇集到决策模块，裁决最终的结果。如图2所示，HTTP，FTP，LIME基分类器都给出了Y或N的判断，在决策模块内，裁决出流向量的应用类别。　　在训练阶段，网络流数据集首先经过一次聚类，分成若干个簇，在每个簇的内部单独训练一个基分类器，它们专注于学习簇内部的分类边界。如图3所示，聚类产生的簇中心集将在测试阶段使用，不同簇都训练出一个基分类器。　　一个未知的网络流首先进过与训练阶段生成的簇中心集的距离计算，判断该网络流落在哪一个簇上，然后调用该簇的基分类器，给出预测结果。如图4所示，如果未知流向量落在簇K上，那么簇K的基分类器就对流向量做出预测。　　1.2 簇基分类器设计　　1.2.1 K-Means聚类　　在多个簇基分类器集成的系统中，训练阶段，网络流向量首先要经过一个聚类处理过程，本文选择的聚类算法是K-Means，因为它的简单和快速。K-Means算法将数据集中的对象划分到事先指定的K个互斥的子集中，这些子集称为簇。在每一个簇中，划分算法都通过最小化簇内部的平方误差来最大化簇的同一性。平方误差见公式1：　　初始状态，K个簇的中心是在子集空间中随机选取的。数据集中的对象随后被划分到距离最近的簇中，K-Means迭代地计算每个簇新的中心点，然后根据这些中心点再次划分所有的对象。K-Means算法重复这个过程直到所有簇中的对象都稳定不再变化，这样就产生了最终的一个划分。　　1.2.2 集成的分类算法　　在每个簇上单独训练的簇基分类器，可以选择各种有监督的分类算法。　　（1）支持向量机　　基于统计学习理论的支持向量机（SVM）是一种广泛应用的机器学习算法，支持向量机的基本原则是构造最优的划分超平面，在n维特征空间中，能够使距离超平面最近的样本与超平面间的距离最大化。　　输入向量可能并不是线性可分的，支持向量机将低维的输入向量投影到高维的向量空间中，通过升维的方式将非线性可分问题转换为线性可分问题。本文选择了顺序最小优化（SMO）的SVM实现方案，这种高效的实现使用成对分类方法，将多类别分类问题分解成一系列的二分类子问题，消除了数值最优化的需求。　　在本文的集成分类系统中，每一个应用基分类器要处理的正是二分类问题，应用基分类器内部的