基于机器学习的P2P流量识别研究-计算机应用技术专业论文.docxVIP

下载本文档

1
0
约11万字
约 112页
2019-02-19 发布于上海
举报
版权申诉

基于机器学习的P2P流量识别研究-计算机应用技术专业论文.docx

1、本文档共112页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据 Nanjing University of Aeronautics and Astronautics The Graduate School College of Computer Science and Technology Research on P2P Traffic Identification based on Machine Learning A Thesis in Computer Science and Technology by Sanmin Liu Advised by Prof. Zhixin Sun Submitted in Partial Fulfillment of the Requirements for the Degree of Doctor of Philosophy January, 2015 承诺书本人声明所呈交的博士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本承诺书）作者签名：日期：南京航空航天大学博士学位论文摘要 P2P(Peer-to-Peer)技术广泛应用于文件共享、流媒体、即时通信等领域，在带来便利的同时也带来许多负面影响，如大量占用网络带宽资源、知识侵权和网络安全等问题。因此，如何解决 P2P 技术所带来的问题成为 P2P 流量识别研究的动机。鉴于许多 P2P 应用采用动态端口、协议加密等新技术，导致早期基于端口识别和应用层协议特征指纹识别法存在某些局限。相关文献直接从 P2P 网络技术本身特点出发，挖掘内在特征进行流量识别，如网络拓扑直径、端口连接和协议分析等，但其所建立的模型较复杂、效率不高。在此背景下，基于流量的统计特征依托机器学习的方法进行 P2P 流量识别成为新的研究点。本文从 P2P 流量产生环境入手，归纳三个方面的研究问题并用机器学习理论技术解决：一是在 P2P 流量识别时，如何解决标注样本数量不平衡和多分类问题；二是由于网络时空环境变化的影响，在 P2P 流量识别时如何解决概念变化问题；三是在网络环境下对样本进行标注费时费力，如何利用大量非标注样本信息提高 P2P 流量识别模型的准确性。本文主要贡献在于： (1) 通常情况下流量样本在特征空间分布呈现出类内紧密、类之间远离的特点，基于此特点本文实现一种基于支持向量数据描述(Support Vector Data Description: SVDD)的 P2P 流量识别模型。该模型首先在标注样本集合上用支持向量数据描述方法寻找各类样本的最优超球，选取最优超球的支持向量样本信息作为识别模型基础；然后计算待分类样本与各超球球心距离，建立决策规则即待分类样本类别与最近超球类别一致。该识别模型较简单，适合多种网络应用流量识别环境,能够解决标注样本数量不平衡问题，且避免了传统基于聚类的识别方法在初始参数难以确定的问题。通过对 P2P 类别样本的召回率和精度实验数据分析可知，识别模型对于 P2P 流量样本的识别具有较高的可靠性，而且此识别模型也拥有较高的整体分类准确率。 (2) 鉴于网络环境和网络应用分布具有动态特点，在 P2P 流量样本产生过程中存在概念漂移现象，这使得传统的静态识别模型准确率不高。通过对概念漂移出现的原因和集成学习理论分析，设计了一种具有概念漂移检测功能的多分类器动态集成流量识别方案，此方案包括概念漂移检测和分类器动态集成两大模块。运用卡方统计推断方法实现连续数据块之间概念漂移检测，在此基础上根据基分类器性能好坏动态更新集成模型，包括基分类器的添加与删除及基分类器的权重信息修改。在实验过程为验证相应的研究目标，分别以贝叶斯分类器、支持向量机、决策树作为基分类器，针对不同集成规模、数据块大小进行仿真实验，实验数据表明设计的方案可行，能够检测出流样本中出现的概念漂移，并能对集成模型作出及时调整，模型的识别准确率达到 82%以上。 I 基于机器学习的 P2P 流量识别研究 (3) 为提高 P2P 流量识别模型的推广能力，在监督式训练过程需要较多的标注样本信息。在网络中进行样本标注费时费力，相反获取无标注样本简单方便而且样本数量较多，因此本文利用主动学习理论解决上述问题。在主动学习时需要计算样本不确定性值，当未标注样本数量较多时需要占用更多的资源，而且在选择未标注样本时，容易出现