网络流量分类及其现状研究.docVIP

下载本文档

36
0
约7.63千字
约 11页
2017-08-24 发布于北京
举报
版权申诉

网络流量分类及其现状研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络流量分类及其现状研究　　【摘要】高效的网络流量分类是实现网络管理、流量控制以及安全检测的重要环节。详细介绍了现有的网络流量特征选择方法和分类方法的国内外研究现状，在对比各种方法优缺点的基础上，指出半监督学习方法在网络流量特征选择和分类方面的优势，同时，总结了半监督学习方法在网络流量分类领域亟待解决的问题。　　【关键词】网络流量特征选择分类半监督学习　　【中图分类号】G【文献标识码】A 　　【文章编号】0450-9889（2013）10C-0190-03 　　网络的持续发展与变化，导致Internet数据流量持续增长，应用属性动态变化，应用类型多样化。政府、企业和个人用户每天都会产生成千上万条不同的网络应用流量，这给网络运营和管理带来巨大的机遇，也带来前所未有的挑战。视频、P2P、游戏、聊天、商务交易等各种应用不断涌现，造成新兴应用层出不穷、带宽消耗急剧增加、安全问题日益增多，如何为用户提供一个安全、可靠和高效的网络环境，是当前亟待解决的关键问题。网络流量分类是实现网络可控性的基础技术，在网络管理、服务质量保障和网络安全等领域都有应用。但随着网络的发展，网络速度不断提高，新型的网络应用和技术不断出现，对网络流量分类技术提出了更高的要求。　　一、网络流量的定义　　网络中存在的“流”是指在一个特定时间段内，一个节点（可以是计算机、路由器或者服务器等网络设备）收到或发送的具有相同五元组（源IP地址，目的IP地址，源端口号，目的端口号，协议类型）的单向数据包集合。只要数据包的上述五个要素中有一个不相同，它们就不属于同一条流。在流的定义的基础上，网络流量分类是指：对流按照其应用层的应用类型（如FTP，MAIL，WWW，P2P等），将网络中存在的TCP流或UDP流进行分类。对网络流量分类的研究主要是网络流量特征选择和分类方法两方面。　　二、网络流量特征选择方法研究现状　　特征选择是从原始特征集中选取有助于分类决策特征子集以使特定的评价标准最优的过程。网络流量数据维数过高和训练样本不足的矛盾会导致一些学习算法出现“过拟合”现象，甚至面临“维数灾难”。一个高效的特征选择算法对数据的分析十分重要，它通过剔除大量网络流量特征中冗余的、有噪声的特征，降低特征维数，从而达到减少分类器的建模时间，提高分类器识别率的目的。面对不同的网络流量实际问题，一方面，高维的原始数据直接影响分类器训练时间，可通过特征选择来降维，平衡训练时间和分类精度的矛盾；另一方面，大量无关或冗余的特征直接影响分类器的设计，可通过特征选择来去掉无效的特征，提高分类器泛化性。特征选择技术有助于增强分类系统的速度、准确率和可理解性，因此，信息充分、低冗余、低噪声的特征子集是设计并优化分类器性能的前提条件。　　2005年，Zander S等人提出基于统计特征的机器学习流量分类框架，采用了序列前向的特征选择方法（SFS）获取最佳的流特征集，分类精度达到87%，但用于实验的流的数量和应用类型有限。2006年，Williams N等人采用五种经典的机器学习算法，比较特征选择分别采用最佳搜索、贪婪搜索策略、前向和后向搜索方向下对分类性能的影响。2007年，Yang Yue-xiang根据经验选取了12个对分类最有效的流统计特征用于SVM流量分类，而未用算法进行特征选择，导致某些类型的流量精度偏低。2008年，Hyunchul Kim在基于filter型特征选择模型下，采用最佳优先搜索策略来选取流统计学特征。HUANG等人将粒子群算法用于特征搜索，但粒子被过多束缚，容易导致局部最优。2009年，Li等人利用遗传算法进行特征属性选择，搜索能力强，对求解大规模复杂问题具有较好的适应性，但算法容易收敛过早。2010年，Xu等人就特征产生及特征选择对分类的速度及精度的影响进行了详细分析。2011年，Pereira提出了一种新的基于属性相关性的数据流特征选择算法，通过曲线拟合趋势相关性属性进行特征选择，一定程度上克服了传统方法的局限性，但仍然存在着计算量大，消耗时间较长的不足。2012年，Wang以流的统计学特征为依据，提出了一种基于filter和wrapper的组合式特征选择，获得识别P2P的最优流特征子集，但该方法的通用性有待提高。　　目前，各种新的搜索机制和评价标准如支持向量机、马尔可夫、粗糙集、神经网络等方法被广泛应用于改进现有的特征选择算法，使该领域的研究呈现多样化趋势。流量样本中是否含有监督信息是特征选择算法分类的标准，它可归类为有监督、无监督和半监督特征选择流量分类方法三大类。有监督的流量特征选择方法使用如类标记、成对约束等有监督信息进行特征约简；无监督的流量特征选择方法根据大量无标记样本特征间的相似性来进行特征选择；而半监督的流量特征选择方法