- 1、本文档共91页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于点击流数据和Hadoop的网站访客行为分析毕业论文
目录
第1章 绪论 1
1.1研究背景及意义 1
1.2国内外研究现状 4
1.3本文的研究依据 6
1.3.1网站分析与网站访客行为分析 6
1.3.2网站访客行为分析的依据 8
1.4本文的研究内容 13
1.5本文的组织结构 14
第2章 现有网站访客行为分析技术研究 16
2.1基本命令行和SQL的纯手工分析 16
2.2网站点击分析工具StatViz 17
2.3日志分析统计工具AWStats 20
2.4 Google Analytics 21
2.5本章小结 22
第3章 基于Hadoop的网站访客行为分析方案 24
3.1 Hadoop应用于网站访客行为分析的相关特性与工具 24
3.1.1 HDFS分布式文件系统 24
3.1.2 MapReduce分布式计算框架 25
3.1.3 Hive数据仓库工具 26
3.2 基于Hadoop的网站访客行为分析的可行性分析 26
3.3基于Hadoop的网站访客行为分析的方案设计 27
3.3.1原理与过程 27
3.3.2架构设计 28
3.4方案评估 29
3.5本章小结 30
第4章 基于传统点击流数据和Hadoop的网站访客行为分析方案的实现 31
4.1数据准备 31
4.2环境准备 31
4.3基于Hadoop Streaming的网站日志预处理 33
4.3.1 Hive日志表的创建 33
4.3.2日志行的处理逻辑设计 33
4.3.3 Hadoop Streaming编程实现 34
4.4基于Hive的基本指标统计与分析 35
4.4.1 Hive表数据导入 35
4.4.2唯一访客数和访问最多访客 36
4.4.3使用Hive自定义函数处理URL 37
4.4.4唯一资源数和请求最多资源 39
4.4.5网站请求的按日、按小时分布 40
4.5基于MapReduce Java API的会话识别 42
4.5.1会话识别程序的设计 42
4.5.2 Mapper 43
4.5.3 Reducer 44
4.5.4 Hive会话日志表的创建 46
4.6基于Hive的综合指标的统计与分析 47
4.6.1每日会话数 47
4.6.2进入页面和离开页面 48
4.6.3会话请求数分布 50
4.6.4会话时长分布 51
4.6.5访问频率分布 52
4.7基于GraphViz的网站访问拓扑结构图 53
4.8自动化网站访客行为分析系统的构建 58
4.8.1需求分析与整体设计 58
4.8.2详细设计 60
4.8.3系统实现 62
4.9本章小结 64
第5章 基于扩展点击流数据和Hadoop的网站访客行为分析方案的初步实现 66
5.1传统点击流数据与扩展点击流数据 66
5.2扩展点击流数据的获取技术 67
5.3基于Open Web Analytics的扩展点击流数据获取 68
5.3.1 OWA架构解析 69
5.3.2扩展点击流数据收集模块的增设 72
5.3.3跟踪代码的部署 73
5.3.4所获扩展点击流数据讨论与准备 76
5.4基于扩展点击流数据的网站访客行为分析的初步探索 78
5.5本章小结 81
总结与展望 82
致 谢 84
参考文献 85
第1章 绪论
1.1研究背景及意义
2014年是互联网进入中国的第20个年头。这时的中国,人们已经越来越了解互联网。人们习惯于利用它来查看新闻,检索信息,访问企业门户,浏览与购买商品,发表文章和评论等等。互联网越来越成为人们活动的重要场所。
在互联网上,为了完成特定的任务,比如购买一件商品,一般有如下操作:1)打开浏览器;2)通过输入网址,打开书签或历史,或在搜索引擎上输入关键词并打开合适的索引,以此进入到一个网站页面;3)滚动页面以查看相应区块的内容;4)移动与点击鼠标以选择特定的文本、文本框或其它元素;5)在超链接上点击鼠标以从一个页面进入到另一个页面;6)在输入框中输入信息;7)点击提交按钮以向网站提交所输入信息;8)关闭标签页或浏览器,离开网站;9)其他操作。
上述各类操作中,基于当前普通的技术水平,网站可能感受到访客行为的渠道无非就两个——鼠标操作和键盘操作(至于对访客眼球动作、面部表情等的捕获,技术尚不成熟,不在本文讨论之列)。1)键盘操作远不及鼠标操作频繁;2)键盘操作的结果一般是输入文字,通常跟访客在网站内的行为本身的关系不大;3)所输入的文字一般会进入网站的数据库,如果有需要,完全可以采用其他更加适合的技术进行分析;4)访客所输入文字中包含大量的隐私信息,记录所输入文字涉嫌违犯用户隐私。基于上述四点原因,对键盘操作的记录与分析不在本文以及大多数网站分析系统所考虑的范围之内。
在上述一系列的鼠标操作当
文档评论(0)