- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的计算机网络流量控制策略
基于数据挖掘的计算机网络流量控制策略-计算机论文
基于数据挖掘的计算机网络流量控制策略
□广西卫生职业技术学院 陈 诚
【摘 要】高校管理者应从制度着手,合理进行网络使用引导,对各种网络流量控制策略进行合理微调与修正,从技术角度提升网络应用水平,为教学及应用体验提供良好的网络环境。
关键词数据挖掘 网络流量 控制
【中图分类号】 G 【文献标识码】A
【文章编号】0450-9889(2014)07C-0187-03
随着网络规模的逐步扩大和计算机网络中流量应用的日益复杂,我们管理计算机网络的难度也逐渐增大,对网络应用的管理技术也要求越来越高,为此,计算机网络管理技术的新方法及新技术应运而生。直至目前,在现有的网络带宽的条件下,计算机网络管理技术必须根据网络流量、应用及服务的新要求,将网络管理控制逐步从网络层渗透到应用层。在应用层中,各种网络应用都会产生相应的网络流量,网络流量作为网络用户活动特征的重要载体,发挥着极为重要的作用。通过分析对网络流量进行监测得到的日志,可以实现网络异常监测、网络性能分析、链路状态监测等,此举对于计算机网络的维护和运行都发挥极其重要的作用。
网络应用的日志挖掘研究主要有两个方向:一个是将网络内所有用户的网络应用行为看成一个整体,分析这个整体在网络中的访问规律,了解用户的网络应用流量趋势,制定相应的网络访问策略,从而达到针对不同网络应用类型实现带宽优化配置的目的。第二个是对网络内单个用户的网络应用行为进行研究,每个用户作为网络中一个独立的最小单位,都具有自己独特的网络行为惯性,通过分析这些用户的网络应用行为,不仅可以从细节上完善网络流量控制策略,同时也可以针对不同的时段进行网络流量的控制,使用户能享受到更优质、流畅的网络体验。
一、数据挖掘
数据挖掘就是数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的存放在数据库、数据仓库或其他信息库中的数据中获取有效的、潜在有用的、新颖的、最终可理解的模式的过程。
在众多数据挖掘研究中关联规则挖掘是较常使用的一种主要模式,同时也是最活跃的一种日志数据挖掘研究方法。因为关联规则挖掘可以用来发现大量数据中各项集之间相关的关联信息或一些有趣的关联信息,进而找出数据库中隐藏的信息关联网。
就像在美国的沃尔玛连锁超市,为何会将尿布与啤酒这两种完全不相干的商品摆在同一个货架上?一段时间后的销售统计结果却是尿布和啤酒的销量都一并大幅提高了。原因是妻子在家照顾孩子,会让丈夫在下班后去超市买些孩子用的尿片回来,所以进入超市的丈夫们在选购尿片的时候,如果在同一货架上看到自己喜欢喝的啤酒,就会顺手购买,这就是不同事物间隐藏的关联性所带来的经济效益,而这些关联性则是通过数据挖掘中的关联规则挖掘来发现的。
至今,比较经典的关联规则挖掘算法有 Apriori算法和FP-growth算法,从算法思路上后者的效率高于前者,所以我们将使用FP-growth算法对网络日志进行挖掘计算,从而找出网络中频繁出现的应用行为和用户习惯性的访问行为,以此为参考依据对网络流量策略进行设置。
二、FP-growth算法
FP-growth算法的主要思想是分而治之,该算法会在对数据库完成第一次频繁项扫描操作之后,将扫描结果得到的频繁项集数据通过排列树算法形成一棵频繁模式树,称为FP-tree,以此来保存频繁项集的关联信息,然后将FP-tree压缩成特殊类型的投影数据库,投影中的每个节点即为之前扫描到的频繁项,相当于一棵树中的支点,并针对该FP-tree进行阙值遍历运算,此算法相比Apriori算法避免了产生大量候选项集,经过一次或多次遍历操作,即可直接获得频繁模式。
FP-growth算法的描述过程
FP-growth(FP-tree,a) //FP-tree为a的条件模式树,a为行为项
{
如果 FP-tree中有一条行径P
则循环构建FP-tree中P行为的每一个组合(用b表示)
产生频繁项集(b并a),且令它的支持度等于b的最小支持度;
否则就对FP-tree的头部到尾部的每一项(用ai表示)
{
产生频繁项集(ai并a) 使它的支持度等于ai的支持度;
建立b的条件模式库,然后构建 b的条件模式树FP-tree_b;
如果FP-tree_b不等于空集
则调用FP-growth(FP-tree_b,b);
}
}
三、分析挖掘网络日志
(一)网络应用分析
通过架设在出口路由后方的网络流量控制设备,以应用控制引擎为出口部署,依靠其丰富的协议识别能力,并且能对网内各用户的应用层网络流量进行记录。针对收集到的网络流量记录日志中的网络应用行为进行数据挖掘分
原创力文档


文档评论(0)