基于支持向量机流量分类方法.docVIP

下载本文档

4
0
约9.35千字
约 18页
2018-08-29 发布于福建
举报
版权申诉

基于支持向量机流量分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于支持向量机流量分类方法

基于支持向量机流量分类方法　　摘要：针对现有流量分类方法存在的准确率低、应用范围受限、计算复杂度高等问题，提出使用支持向量机方法来解决流量分类问题。使用公开的人工标注数据集作为训练集和测试集，通过有监督学习构建支持向量机流量分类器。此外，通过实验进一步分析了训练集大小、核函数、惩罚因子等因素对支持向量机分类性能的影响。实验结果表明支持向量机分类器可以达到98%以上的流分类准确率。　　关键词：流量分类；支持向量机；流量识别　　中图分类号：TP393 文献标志码：A 文章编号：1001-3695(2008)08-2488-03 　　　　Traffic classification based on support vector machine 　　LIN Sen??a,b??,XU Peng??a,b??,LIU Qiong??a,b?? 　　(a.Institute of Software, b.Graduate School,Chinese Academy of Sciences, Beijing 100190, China) 　　Abstract:In order to solve the problems in current work, such as low accuracy, limited application region or high computation complexity, support vector machine (SVM) was applied to categorize traffic by application. The work capitalized on public hand-classified network dataset and used it to train and tested the supervised SVM traffic classifier.The improved accuracy of refined variants of this classifier was further illustrated, and the variants included the size of training dataset, kernel functions and penalty factors. The results indicate that it can achieve over 98% accuracy on per-flow classification with the SVM classifier. 　　Key words:traffic classification; support vector machine(SVM); traffic identification 　　　　1 相关研究　　　　本文讨论的流量分类问题是指按应用类型将网络流量分类，是网络管理的基础功能。准确的流量分类对于网络领域很多相关研究都很重要。例如入侵检测、流量调度、服务质量保证（QoS）、构建符合实际的流量模型、准确预测未来流量规模和需求等。目前，已有的流量分类方法主要分为以下四类：　　a）基于固定端口号的分类方法。根据不同应用使用不同的传输层端口号来划分流量，通常只有50%~70%的准确率[1，2]。这种方法仅对使用传统固定端口的应用有效，如Web、DNS、mail等。但是这类方法无法分类使用随机端口的应用，或者错误分类使用传统固定端口的非传统应用。例如，近几年来涌现出的P2P应用大量使用随机端口，使基于固定端口流量分类方法失效。　　b）基于应用层内容的分类方法。根据不同应用具有不同的应用层特征字段来划分流量。该方法在加入人工干预的基础上能达到99%以上的准确率[3]。其准确率虽然远远高于基于固定端口号的流量分类方法，但是该方法需要获取完整的应用层负载内容，其应用范围受到三个因素限制：（a）涉嫌侵犯用户隐私；（b）无法识别应用层加密的应用；（c）无法识别特征字段未知的应用。　　c）基于传输层行为的分类方法。根据传输层不同级别的行为特征来划分流量，准确率约为80%~90%[4]。该方法不依赖应用层内容，不受基于应用层内容的分类方法三个限制因素的影响。但是传输层行为通常与网络环境密切相关，相同应用在不同网络环境下的传输层行为很可能存在较大差异，这种相关性限制了该方法的应用范围。　　d）基于统计学的分类方法。根据传输层的统计特征来划分流量。其中，贝叶斯神经网络方法的准确率达到99%以上，但该方法计算复杂度很高[5]。目前关于统计学方法已有很多深入研究，并且有许多成熟的算法实现。统计学方法被广泛应用于许