支持向量机的半监督网络流量分类方法.pdf

支持向量机的半监督网络流量分类方法.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

支持向量机的半监督网络流量分类方

李平红;王勇;陶晓玲

【摘要】针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提

出一种支持向量机(SVM)的半监督网络流量分类方法.该方法在SVM训练中,使用

增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,

改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督

Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对

分类器进行反复修正,减少辅助分类器的噪声数据,克服传统协同验证对分类算法及

样本类型要求苛刻的不足.实验结果表明,该方法可明显提高网络流量分类的准确率

和效率.

【期刊名称】《计算机应用》

【年(卷),期】2013(033)006

【总页数】4页(P1515-1518)

【关键词】网络流量分类;支持向量机;半监督;增量学习;协同训练

【作者】李平红;王勇;陶晓玲

【作者单位】桂林电子科技大学计算机科学与工程学院,广西桂林541004;桂林电

子科技大学广西可信软件重点实验室,广西桂林541004;桂林电子科技大学信息与

通信学院,广西桂林541004

【正文语种】中文

【中图分类】TP393.07

0引言

网络流量是记录和反映网络状况及用户活动的重要载体,对实现有效网络管理有重

要意义。目前流行的网络流量分类方法主要有基于端口号匹配方法[1]、基于特

征字段分析方法和基于流特征统计的机器学习方法[2]。基于端口号匹配方法根

据网络应用的端口号来区分不同类型,实现简单,但新的网络应用(如P2P、被动

FTP)采用随机端口技术,使该方法应用受限。基于特征字段分析的方法通过解析

数据包获取特征字段来区分网络应用类型,准确率较高[3],但应用负载加密和

新型应用的不断涌现使该方法的有效性逐步下降;同时,需要扫描数据包内容,计

算开销大。基于流特征统计的机器学习方法,根据流量的某些属性(如平均包长、

平均包间隔时间等)的统计信息,采用智能机器学习方法实现流量分类[4]。典型

的有支持向量机(SupportVectorMachine,SVM)和决策树方法等,此类方法不

需解析数据包,仅通过提取数据包头部相应字段来获得流特征统计信息,但选择不

同的流属性和流量分类方法直接影响分类的精度。

随着现代化技术的发展,需要处理的网络流量越来越庞大,SVM在流量分类问题

中比其他方法更具良好的泛化性和鲁棒性,但仍存在两方面的不足:一是随着新的

网络流量样本的增加,分类准确率下降;二是训练SVM分类器需要人工标记网络流

量样本,对人力和财力的消耗较大,同时增加了人为的出错率。为解决第一个问题,

引入增量学习方法,使分类器可以随着新流量样本的积累不断提高学习精度;为解

决第二个问题,引入半监督学习方法[5],同时利用少量已标记样本和大量无标

记样本训练流量分类器。

在基于流特征统计的机器学习方法中,基于有监督的网络流量分类方法如贝叶斯、

决策树方法[6]等,检测率高,但要求提前正确标记样本类别,无法发现未知的

类别;基于无监督学习的流量分类方法如聚类[7]的方法,根据数据的相似性进行

分组,克服了有监督学习方法中需标记数据的不足,但只能对未标记数据建模,检

测精度较低。基于这些原因,本文提出具有增量学习能力的最近区域SVM(Least

Area-SVM,LA-SVM)方法,随着新流量样本的增加,不断完善对单个分类器的

建模;在半监督学习的基础上,改进Tri-training协同训练方法,同时发挥已标记

和无标记样本的优势来协同训练三个分类器,有效减少辅助分类器产生的噪声样本,

训练出的分类器具有较强的泛化性。

1LA-SVM分类方法

面对种类繁多、持续增加的网络流量,在初期获得一个完备的流量数据训练集对于

SVM方法难以实现,这就要求分类器可以随着新流量样本的积累不断提高学习精

度,具备增量学习能力十分必要。

1.1新增样本后支持向量的变化情况

周伟达等在文献[8]中证明满足KKT(Karush-Kuhn-Tucker)条件的新增样本将

不会改变支持向量集,而违背KKT条件的新增样本将使支持向量集改变。王晓丹

等[9]证明若新增样本存在违背KKT条件的点,则原样本集中的非支持向量可能

转化为支持向量。因此,本文认为:分类器的性能主要取决于新增样本集中违背

KKT条件的样本点和原样本中的支持向量集以及原样本中可能转化为支持向量的

非支持向量集。

本文结合图1给出直观解释。假设A1、A2

文档评论(0)

186****5782 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档