具有规模适应性的互联网流量识别方法研究-计算机软件与理论专业毕业论文.docxVIP

下载本文档

5
0
约17.08万字
约 138页
2019-04-26 发布于上海
举报
版权申诉

具有规模适应性的互联网流量识别方法研究-计算机软件与理论专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

山东大学博士学位论文摘山东大学博士学位论文摘要互联网流量识别是互联网流量测量领域的研究热点问题之一。以P2P流量为主要对象的流量识别、管理已经成为学术界、网络工程界、国家有关部门普遍关心的问题。高效、准确地识别互联网流量对于分析网络发展趋势、提供服务质量保证、动态访问控制、网络合法管理、异常行为检测等都有很重要的现实意义。传统的以知名端口和应用层载荷特征码为基础的流量识别方法难以应对端口伪装、端口随机选择和应用层数据加密等反监测技术趋势。基于应用行为和流特征的方法已经受到研究人员关注，但识别准确率、实时处理能力、自动学习能力和新应用发现能力等都是需要面对的挑战。具有规模适应性的互联网流量识别方法的研究目标是面向不同网络规模、不同宏观程度以及不同识别粒度的分析需求，研究在不同层次和不同范围内对互联网传输的内容进行区分，对互联网应用行为进行分析的有效方法和组织方式。并从智能学习特性、在线实时处理能力、混合分类实施方式以及不同范围内的分布式处理方法等方面提出了新的目标。论文基于此研究面向单点、有限网络规模和互联网范围的流量识别和行为分析方法。针对上述关键性问题展开研究，主要贡献和创新包括以下几点： (1)提出基于数据引力和细分识别空间理论的半监督学习(DG兀)l峪．SSL) 模型，在此基础上研究基于流统计特征的机器学习流量识别方法。把样本空间的数据点视为质量点，定义数据点之间的欧式距离为样本距离，借用万有引力定律提出数据空间中的数据引力(DG)理论，基于数据引力实施样本聚类。提出细分识别空间(FDRS)理论，对分类识别空间进行不同维度和细度的划分，采用染色的方法对划分后的识别空间进行区分，形成一个具有细分特征的识别空间。数据样本聚类后把聚类结果映射到细分识别空间，在染色原则指导下根据有“标记”样本对识别空间染色得到半监督学习分类训练模型。把模型用于面向单点的流统计特征流量识别，克服了传统有导师学习方法需要大量有分类“标记”样本缺点，具有较高的性能和新应用发现的能力。 (2)定义了互联网应用群体模型，提出面向有限网络规模的互联网应用群体发现和流量识别方法。分析互联网应用的特性，定义互联网中不同应用行为的主机连接特征图。结山东大学博士学位论文山东大学博士学位论文合社会群体概念和有限网络范围内的行为主机之间聚集、共享和连接特征，研究基于行为特征图的动态互联网应用群体生成和发现方法。从不同层次和位置收集具有不同方向属性的节点行为信息用于分析有限规模的网络行为。借助宏观的群体特征发现实施微观粒度的流量识别、端口伪装和跨协议传输行为发现。适于有限规模内具有分布式和协同特征的应用行为分析，不受易变易伪装特征的影响。 (3)提出了面向互联网规模的自组织流量识别联盟模型。结合DHT(分布式哈希表)的优点，研究利用虚拟存储和相同前缀Hash技术实现索引资源本地存储的方法，设计改进的Chord覆盖网络路由算法，并基于此设计无中心的自组织互联网流量识别和行为分析联盟模型。具有本地流量识别和行为分析功能的节点在遵守联盟协议的条件下可以加入联盟，并在联盟成员之间协助流量识别和行为分析，共享流量特征、数据样本和识别经验。克服了传统方法只能在有限组织机构之间通过固定设备和协议的协助，可扩展性差和开放性不足等缺点。 (4)提出并设计了一种获取有分类“标记”的真实网络流量数据样本的方法，结合网络处理器实现了流量样本采集平台。设计客户端，利用静态过滤监测机制，采用Hook方式监视本地应用程序的网络调用。根据发起网络流量的应用程序或进程识别应用，并把对应程序分类信息标签嵌入相应数据包的TOS标志位，实现互联网流量的真实分类“标记”，同时具有流量分类验证功能。在网关出口利用网络处理器的快速硬件匹配能力检测数据包TOS标志位，采集带分类“标记”的流量样本，预处理后发布使用，实用有效。 (5)提出了一种基于机器学习的在线流量识别方法，并结合网络处理器实现1000Mbps有限线速处理目标。研究互联网流量的时序相关性特征，获取行为节点之间的前序流量信息后进行分类识别，随后利用得到的前序流的识别结果指导后续流识别和分类，并随时根据获取流特征的变化进行调整和修正。发挥IXP．2400网络处理器的高速并行处理特性和软计算理论的智能特性，实现基于网络处理器和服务器相结合的软、硬件混合的流量识别平台，具备1000Mbps的有限线速处理能力。使基于机器学习的流量识别方法具有一定的在线实时识别能力。关键词：互联网、流量识别、半监督学习、群体、网络处理器 ABSTRACT111temet ABSTRACT 111temet tramc identific撕on is one of th