- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于支持向量机网络流量识别模型
基于支持向量机网络流量识别模型
摘 要:针对网络流量识别问题,提出一种基于支持向量机(SVM)的网络流量识别模型。首先通过流量特征提取模块,提取适合在支持向量机中识别网络流量的6个主要特征。对数据进行清洗、预处理以及训练和学习,从而实现整个基于SVM的网络流量识别系统。实验结果表明,经过交叉检验选择参数后,再用支持向量机模型进行训练和学习,可以取得较好的分类效果。
关键词:网络流量;支持向量机;流量识别
DOIDOI:10.11907/rjdk.162818
中图分类号:TP393
文献标识码:A 文章编号:1672-7800(2017)007-0162-03
0 引言
网络流量识别一直以来都是业界研究的重点[1]。目前,网络流量分类和识别主要分为4种类型:基于端口识别、基于应用协议特征字识别、行为特征的启发式识别、基于机器学习方法的分类和识别[2-3]。随着端口跳变、信息隐藏等技术的广泛采用,基于特征端口的识别方法已经不再适用于网络流量的识别与检测[4];基于应用协议特征字的识别虽然准确率比较高,但由于需要获取分组的应用层负载,对处理效率的影响较为严重,并且涉及到隐私保护等法律问题,故不被广泛采用[5];基于行为特征的启发式识别是综合利用流的属性、统计特性以及流的行为特征,按照启发式负责对流量进行分析,达到对网络流量分类和识别的目的,但其分类和识别结果不确定,而是基于概率的结果,因此识别方法的精度取决于网络流量应用特征的显著程度和启发式规则对这种特征的覆盖能力[6]。近年来,基于机器学习的网络流量识别方法表现出了较高的准确率,因此得到越来越多研究者的青睐[7-8]。
本文所讨论的网络流量识别问题,其本质上就是一个二分类问题,考虑到SVM在解决二分类问题中的卓越性能,以及其具有的学习能力,故采用它来实现对网络中正常流量和异常流量的初步识别。
基于以上观点,本文提出一种基于SVM的网络流量二分类识别方法,与只采用特征值匹配的识别网络流量方法相比,大大减少了特征值匹配模块的工作量,提高了网络流量识别系统效率。
1 基于SVM的流量识别系统
本文首先通过流量特征提取模块,提取适合在支持向量机中识别的网络流量的6个主要特征。接着,对数据进行清洗和预处理,通过对数据进行训练和学习,从而实现整个基于SVM的网络流量识别系统。
1.1 流量特征提取模块C和Υ
本模块采用了开源软件Winpcap进行网络数据的捕获分析,选取数据包在特定时间(W秒)间隔内本机连接出去的IP数、端口数、包长、包数、上行速度和下行速度6大特征信息。
1.2 基于SVM的P2P流量识别模块
本模块主要?ν?1中提取出的流量统计特征信息进行整理,剔除冗余数据,并将其转换为特征向量形式,采用支持向量机的方法将其交给SVM进行训练,训练后得到一组支持向量,即今后的预测模型。将预测模型与预处理过的待预测特征向量共同代入SVM的决策函数中,从而判别出该网络流量是否为P2P流。
1.2.1 预处理
对数据集进行预处理,即对数据进行缩放的目的在于:
① 避免部分特征值范围过大而另一部分特征值范围过小;
② 避免训练时为了计算核函数而计算内积时引起数值计算困难。
因此通常将数据缩放到[-1,1]或者是[0,l]之间,本文采用默认缩放范围[-1,1]。
1.2.2 寻找最优参数C、Υ
数据预处理后,便可以利用网格搜索法来交叉验证寻找核函数RBF对于训练数据集的最优参数C和Υ[9]。为了识别出好的(C,Υ),以便分类器能准确地预测未知数据。
1.2.3 模型训练
最优参数(C,Υ)确定后就可开始对训练数据集进行训练以获取支持向量机模型[10]。同样地,LIBSVM提供了一个训练函数svm-train.c。其主要功能是读取训练文件,调用模型训练函数svm_train训练模型,并调用svm_save_model保存模型到文件。程序基本流程图如图3所示。
2 实验分析
本文在VC++6.0环境下开发了基于SVM的P2P流量识别系统,并对该系统进行测试,验证其效率和准确性。
2.1 实验过程
2.1.1 数据捕获
选择用于检测流量的网卡设备作为监控对象,然后使用混杂模式打开该网卡,以便获取所有数据。同时,设置过滤器,使WinPcap仅捕获TCP包和UDP包。最后,利用WinPcap开发包提供的非回调方法捕获数据包,然后利用while循环实现不断侦听网卡所检测到的网络流量,同时对被监控的网络节点的流量情况进行统计。
如此,随着while循环不断执行,数据包被不断捕获,直到W秒时间到,统计得到的6个流量特征值就是一组训练
您可能关注的文档
- 基于排队系统最佳拥塞控制比例研究.doc
- 基于排队论公厕排队系统分析与研究.doc
- 基于排队论和时间需求分析法实时系统时间行为分析.doc
- 基于排队论场站售检票系统优化研究.doc
- 基于排队论数据录入企业人员数目决策.doc
- 基于排队论机场除冰坪投入量研究.doc
- 基于排队论模型收费站优化设计.doc
- 基于排队论港口泊位服务系统优化仿真研究.doc
- 基于排队论煤矿装车站能力系统分析及其优化.doc
- 基于排队论科技查新系统分析.doc
- DB44_T+2767-2025河口海湾总氮、总磷水质评价指南.docx
- 中医药科技成果转化评价技术规范.docx
- DB44_T+2750-2025农村供水工程数字化建设技术导则.docx
- DB44_T+2769-2025金属矿山生态修复技术规范.docx
- 镁合金航天航空零部件长效防护微弧氧化膜层工艺规范.docx
- 《甘青青兰中绿原酸和胡麻苷含量的测定 高效液相色谱法》发布稿.pdf
- DB44_T+753-2025声环境质量自动监测技术规范.docx
- 信息技术 智算服务 异构算力虚拟化及池化系统要求.docx
- DB44_T+2759-2025黄荆栽培技术规程.docx
- 废生物制药溶媒再生乙腈.docx
原创力文档


文档评论(0)