校园网用户行为分析系统设计和实现.docVIP

校园网用户行为分析系统设计和实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
校园网用户行为分析系统设计和实现

校园网用户行为分析系统设计和实现   摘要:用户视频浏览行为是视频个性化推荐及视频网站优化的关键,而校园网用户区别于其他社会群体有其特殊代表性。本文基于校园网流量,提出了一种基于MapReduce的校园网视频用户行为分析方案,融合深度包检测与网络爬虫技术,挖掘校园网用户视频行为特征。以优酷网为例,统计了用户行为识别率并分析了视频用户行为,给出校园网用户视频推荐列表。   关键词:校园网 视频用户 行为分析   中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2014)12-0134-02   Design and Implementation of Campus Network Users Behavior Analysis System   Xu Wenqiu,Gao Wei,Shen Jian   大数据时代,信息量增长,用户数增加。截至2014年12月,我国网络视频用户规模达到4.33亿,比去年年底增加了478万,用户使用率为66.7%,中国网络视频的用户规模持依旧呈现出持续稳定上升的态势[1]。校园网用户不同于其他社会群体,有其独特的行为和偏好特征。视频浏览是校园网用户学习生活的一部分。   本文在传统视频推荐及流量识别的基础上,提出了一种对校园网视频流量识别及用户行为分析方案。   1 研究背景   传统的视频推荐技术需要首先获取视频网站日志挖掘用户数据,再对视频网站用户行为进行研究。传统基于端口及协议的流量识别方法并不能满足校园网大数据流量的存储与分析要求。前人的研究无一例外都是以商业网站的自身优化为目的。为了解决传统数据挖掘算法无法对TB级校园网流量数据进行存储于运算的问题,本文借助MapReduce的分布式存储及并行运算优势。融合深度数据包检测及视频网站爬虫技术对校园网视频用户行为进行挖掘和统计分析,并生成推荐列表。   本文创新点如下。   (1)研究对象不同。不同于前人对商业视频网站的用户行为研究,本文针对校园网用户,研究该群体在主流视频网站的用户行为。   (2)研究方法不同。不同于前人基于P2P或提取网站日志的流量识别方法,本文基于深度包检测技术,对校园网数据中心交换机端口的镜像信息进行抓包。并结合网络爬虫技术,爬取视频网站视频信息,从而识别用户视频行为的研究实属首列。   (3)研究目的不同。前人对视频用户行为研究目的在于调控网络流量和网络计费,本文目的在于针对校园网管理及视频资源优化。   2 系统方案设计   2.1 校园网视频用户行为识别   以优酷网某视频请求为例。通过抓包分析,对数据包重组解析,用户HTTP请求内容有明显视频用户行为标识特征,如图1所示,数据数据包中Full request URI可由Host域名和GET请求URI组合而成。当用户浏览某视频时,HTTP GET请求中会带有明确的Host域名和视频对应ID号。如访问优酷网时,请求URI “GET /v_show/id_XNDYyODM3MDM2.html”中的XNDYyODM3MDM2就是优酷网视频“重庆邮电大学传媒艺术学院运动会啦啦队”的唯一标识ID号。   2.2 MapReduce编程模型设计   本文通过多个MapReduce任务实现校园网流量数据包解析,如图2所示。   (1)job 1数据包HTTP重组。通过PcapIputFormat从HDFS中读取数据包,以数据包在文件的偏移量为key、数据包为value作为map阶段的输入,map任务对数据包解码,以五元组(源IP、目的IP、源端口、目的端口、传输协议)进行数据包分流,并将时间戳、TCP序列号添加到数据包净荷前面,用以reduce阶段数据重组,最终形成以五元组为key、数据流为value作为map阶段的输出。   (2)job 2~3用户视频行为特征提取。以job 1 reduce输出结果作为job 2 map输入,拼接Host字段和GET字段还原完整的URL。同时提取Referer字段,存入Referer数据库。reduce结果输出以视频行为特征字段/商品ID为key、计数为value的形式。   (3)job 4用户视频行为统计。以job 3 reduce结果为输入,通过与视频信息库匹配,得到用户浏览视频具体信息,结果输出以视频行为特征字段/视频ID/计数为key、视频具体信息为value的形式,完成对用户视频行为的统计。   3 实验结果与分析   3.1 实验环境及数据   本文在Hadoop测试平台,基于单位网络中心3台服务器上部署十台虚拟机构成的集群。该集群由普通的PC机所组成,1个NameNode,8G内存,500G硬盘;5个DataNode,均为4G内存,500G硬盘。几个节

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档