基于决策树流量分类方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树流量分类方法

基于决策树流量分类方法   摘 要:近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。   关键词:流量分类; 网络测量; 网络流; 决策树; 统计属性   中图分类号:TP393 文献标志码:A 文章编号:1001-3695(2008)08-2484-04      Internet traffic classification using decision tree   XU Peng??a,b??,LIN Sen??a,b??,LIU Qiong??a,b??   (a.Institute of Software, b.Graduate School, Chinese Academy of Sciences, Beijing 100190, China)   Abstract:In recent years, Internet traffic classification using machine learning has been a new direction in network measurement.Na?Tve Bayes method and its improved algorithms have been widely used in this area, because they are simple and efficient. The methods based on Bayesian theorem depend on probability distribution of sample spacing, so they have connatural instability. In order to handle this problem, this paper proposed a new method based on C4.5 decision tree. The C4.5 method used information entropy to build the classification model without assuming prior probability was stable. The test result indicates that the C4.5 method can avoid the affection of the flow distribution change.   Key words: traffic classification; network measurement; flow; decision tree; statistical attribute      随着互联网用户规模的日益增大,互联网的拥塞状况也日益加剧。为了解决这些问题,网络研究人员提出了容量规划、流量调度等一系列策略来提高网络的运营效率。然而,无论是根据用户需求对网络资源进行QoS调度,还是根据网络应用的发展趋势对现有网络进行扩容改造,都必须对网络流量中各种应用进行准确分类与识别。此外,在网络安全、流量计费、应用趋势分析等领域,准确的流量分类也具有极其重要的意义。   为了适应Internet流量数据庞大和应用属性动态变化的特点,利用机器学习方法处理流量分类问题成为当前网络测量领域内一个新兴的研究热点。在使用机器学习方法处理流量分类问题时,研究对象是一组具有相同五元组(源IP、目的IP、源端口、目的端口、传输层协议)取值的分组序列,即网络流(flow)。研究人员通过提取网络流的统计属性,将网络流抽象为由一组统计属性值构成的属性向量,实现由流量分类向机器学习问题的转换。因此,在机器学习方法中,流量分类问题可以抽象为:在已知流量类型集合??T={T??1,T??2,…,T??k}和类型已知的网络流集合X={X??1,…,X??n}(其中,网络流X??i是一个由网络流属性集合构成的属性向量(A??1,…,A??m) ????T??)的情况下,如何在这个网络流集合上,利用机器学习方法构建流量分类模型f:X→T,并以此模型对类型未知的网络流集合进行分类。??   从现有研究成果来看,利用改进的朴素贝叶斯方法进行流量识别的效果最好。然而朴素贝叶斯方法是一种基于概率的学习方法,需要已知待分类样本的分布形式,而在实际的流量分类

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档