基于机器学习的流量分类.docVIP

下载本文档

12
0
约 3页
2017-08-09 发布于重庆
举报
版权申诉

基于机器学习的流量分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于机器学习的流量分类.doc

基于机器学习的加密流量分类研究引言随着互联网技术不断发展，网络规模逐渐增大，网络应用业务类型不断涌现。网络应用迅速产生了大量流量，对网络业务的识别，监视，控制和安全管理方面带来巨大的挑战。互联网各种应用类型有着自身的统计特征，通过分析这些特征，可以对网络流量进行有效分类，帮助网络管理人员对网络流量进行控制。传统的流量分类方案一般是基于数据包载荷信息，数据包头部信息，服务端口号等，但是随着动态端口，加密，网络代理，多重封装等技术，例如，一些网络恶意攻击行为经常采用web默认80端口进行通信，因此传统分类方法受到很大挑战，因此采用机器学习方法进行网络流量分类成为研究热点，根据网络流属性的统计特征，建立分类模型，可以有效规避上述问题，取得了很好的分类效果，受到学术界广泛关注。相关工作目前，已经有大量的机器学习算法被应用于网络流量分类，其中有代表性的学习算法有：朴树贝叶斯（NB），贝叶斯神经网络（BNN），C4.5算法，支持向量机（SVM）等，通过对网络流量的属性特征进行统计，运用机器学习算法建立分类模型，可以对未知流量进行分类或预测。近期的相关研究工作的贡献如下: 2005年，剑桥大学的Moore[1]等人提出基于概率模型的朴素贝叶斯方法，该方法利用先验概率和样本数据信息，计算出最大的后验概率值，从而得出样本类型，该方法具有较高的分类精度，建模开销小的特点。但是该方法要求参与分类的各项属性条件独立而且遵循高斯分布,然而在流量分类问题中,原始的网络流属性集合很难满足上述条件，因此该方法的实际应用受到极大限制。Panchenko[2]等人采用包括总传输的字节数、总传输数据包个数、每个方向数据包比例、html文件的大小、及数据包的大小等特征作为候选属性集，利用SVM(支持向量机)算法进行分类，在样本总类512以下，有载荷加密，数据包填充，网络代理等防御措施下，分类精度可以达到80%，然而该方法只针对网页应用进行类型识别。Kevin P. Dyer [3]等人提出利用一条数据流的总传输时间、每个方向的带宽总消耗、bursts bandwith等粗粒度信息作为特征集而不考虑每个数据包信息（大小及方向）之类的细粒度特征，这样可以有效降低数据包填充等防御措施对分类精度的影响，该方法取得了与Panchenko等人相似的精度。国内方面，国防科学技术大学的王锐等人率先将支持向量SVM(support vector machine)方法应用到P2P 流的识别领域.他们利用网络连接数相关的统计属性将网络流简单划分为P2P 流和非P2P 流,然而他们所用的统计属性依赖于应用的连接模式,因此,该方法与基于传输层行为的流量识别方法相似,分类结果的稳定性极易受到网络环境的影响。本文研究的目的在于找到一种能够检测恶意网络行为的数据流量，提出了一种在现有的传统分类模型的基础下，采用基于决策树算法的分类模型对流量进一步进行判别来检测出异常流量的两层结构。 3、分类结构 3.1 分类模型如下图所示：利用常用协议通信端口的不同，可将流量初步分类，如http（80）、https（443）、VoIP等协议。初步分类之后，只能确定应用类型，还不能确定具体的网络服务商，是否为恶意流量等信息，所以有必要利用机器学习分类器对流量进行更详细的判别，并能检测出异常流量信息。 3.2 特征选取机器学习分类阶段主要任务是根据网络流统计特征样本建立流量分类模型，特征选择和模型建立是该步骤核心子任务。选取适当的网络特征对分类精度有直接影响。由于网络流量的属性特征存在冗余，对分类作用不大。特征选择就是要挑选兼顾计算精度和计算开销的最优特征属性集。正如文献[3] 中的分析，粗粒度信息具有很好的分类效率，本文主要采用流量的粗粒度属性特征：流量中各个方向数据传输总字节数，及各所占比例。网络流量中数据传输方向改变的次数。前20个burst数据包的大小及burst 总数。总的传输时间和总的带宽消耗。 3.3 决策树算法 3.4 分类器模型 4 实验验证 4.1 实验平台及分析工具本文所使用的数据挖掘工具是 Weka-3.5.6[17].该工具是由新西兰怀卡托大学Witten 教授等人开发的开源工作平台.该平台利用Java 语言实现了决策树、朴素贝叶斯等多种机器学习方法。运行windows 7 系统的PC 4.2 数据采集 Wireshark 4.3 特征提取 4.4 实验结果与分析