- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京传智播客教育
Hadoop深入浅出
讲师: 吴 超
博客:
Q Q: 3774 86624
课程安排
加深拓展
项目独立完成***
项目描述
通过对黑马技术论坛的apache common日志进行分析,
计算论坛关键指标,供运营者决策。
数据情况
论坛数据有两部分:
1.历史数据约56GB,统计到2012-05-29
2.自2013-05-30起,每天生成一个数据文件,约150MB
每行记录有5部分组成:
1.访问ip
2.访问时间
3.访问资源
4.访问状态
5.本次流量
关键指标
⊙浏览量PV
定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。
分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是,每个栏目下的浏览量。
公式:记录计数
关键指标
⊙访客数UV(包括新访客数、新访客比例)
定义:访客数(UV)即唯一访客数,一天之内网站的独立访客数( 以Cookie 为依据),一天内同一访客多次访问网站只计算1 个访客。
分析:在统计工具中,我们经常可以看到,独立访客和IP数的数据是不一样的,独立访客都多于IP数。那是因为,同一个IP地址下,可能有很多台电脑一同使用,这种情况,相信都很常见。
还有一种情况就是同一台电脑上,用户清空了缓存,使用360等工具,将cookie删除,这样一段时间后,用户再使用该电脑,进入网站,这样访问数UV也被重新加一。
当然,对于网站统计来说,关于访客数需要注意的另一个指标就是新访客数,新访客数据可以衡量,网站通过推广活动,所获得的用户数量。新访客对于总访客数的比值,可以看到网站吸引新鲜血液的能力,及如何保留旧有用户。
注册用户计算公式:对访问member.php?mod=register的不同ip,计数
关键指标
⊙IP数
定义:一天之内,访问网站的不同独立IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。
分析:这是我们最熟悉的一个概念,无论同一个IP上有多少电脑,或者其他用户,从某种程度上来说,独立IP的多少,是衡量网站推广活动好坏最直接的数据。
公式:对不同ip,计数
关键指标
⊙跳出率
定义:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。
分析:跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户。
该指标也可以衡量网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上之后,又流失掉了,可以说就是煮熟的鸭子飞了。比如,网站在某媒体上打广告推广,分析从这个推广来源进入的访客指标,其跳出率可以反映出选择这个媒体是否合适,广告语的撰写是否优秀,以及网站入口页的设计是否用户体验良好。
公式:(1)统计一天内只出现一条记录的ip,称为跳出数
(2)跳出数/PV
关键指标
⊙版块热度排行榜
定义:版块的访问情况排行。
分析:巩固热点版块成绩,加强冷清版块建设。同时对学科建设也有影响。
公式:按访问次数、停留时间统计排序
开发步骤
1.把日志数据导入到hdfs中
2.明细日志使用hbase存储,能够利用ip、时间查询
3.使用hive进行数据的多维分析
4.把hive分析结果导出到mysql中
5.提供视图工具供用户使用,
指标查询mysql、明细查询hbase
mysql表结构
汇总表
日期
acc_date
浏览量
pv
新用户
newer
独立ip
iip
跳出数
jumper
停留时间
cum_time
状态200
s200
状态301
s301
状态304
s304
状态404
s404
ip、版块访问表
日期
acc_date
ip
ip
版块
forum
停留时间
cum_time
hbase表结构
明细表
行键
date:ip
明细列族
detail:xxx
后续工作
1.周期性把日志数据导入到hdfs中
2.周期性把明细日志导入hbase存储
3.周期性使用hive进行数据的多维分析
4.周期性把hive分析结果导入到mysql中
java开发,设置调度器,增加监控
python/shell开发,结合crontab
add jar ../build/contrib/hive_contrib.jar;
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING
您可能关注的文档
- GNSS定位测量_三角高程测量_3南方平差易计算水准网.pptx
- GNSS定位测量_数据处理_2清华三维计算边角网.pptx
- GSM-R通信系统应用与维护2_教学课件_第23讲_切换技术.pptx
- HSE管理_项目一_绪论_HSE管理体系基本框架.pptx
- H供配电技术_供配电基本知识_1-系统概述.ppt
- ICT营销方案与应标_营销方案_ICT营销方案与应标_认识营销方案.pptx
- Implement_Continuous_Improvement_Managing_records,reports_and_other_data_持续改进实施第7次课.pptx
- IP网络技术_1.1_计算机网络的定义和功能、IP网络技术_1.1_计算机网络的定义和功能.pptx
- Java高级编程_Java高级编程_ch08-3.pptx
- java面向对象程序设计_辅助控制(break,continue,return)_ch2-3-3_辅助控制.pptx
最近下载
- 2024届高考英语语法填空专项分层训练——语法填空真题强化训练(高考真题、模拟真题)附答案.doc
- 非奈利酮片(JXHS2100017-18)说明书.pdf
- 江苏省南通巿2024届高考语文试题一模试卷含解析.pdf VIP
- 2022重庆空港贵宾服务有限公司招聘试题及答案解析.docx
- 《工程结构通用规范(GB55001-2021)》规范解读(新).pdf
- 面粉基础知识介绍 ppt课件.pptx
- 《水利信息化工程施工质量评定规范第8部分数据中心及软件系统》.docx VIP
- 新概念英语第三册 精品课件-Lesson 55 From the earth:Greetings.pptx
- 在线网课学习课堂《学术写作(浙江大学 )》单元测试考核答案.pdf
- 2024年度党支部书记工作述职.pptx VIP
文档评论(0)