网站大量收购闲置独家精品文档,联系QQ:2885784924

Hadoop配置与管理_PPT_传智播客-培训课程(7)Practice_3.ppt

Hadoop配置与管理_PPT_传智播客-培训课程(7)Practice_3.ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京传智播客教育 Hadoop深入浅出 讲师: 吴 超 博客: Q Q: 3774 86624 课程安排 加深拓展 项目独立完成*** 项目描述 通过对黑马技术论坛的apache common日志进行分析, 计算论坛关键指标,供运营者决策。 数据情况 论坛数据有两部分: 1.历史数据约56GB,统计到2012-05-29 2.自2013-05-30起,每天生成一个数据文件,约150MB 每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源 4.访问状态 5.本次流量 关键指标 ⊙浏览量PV 定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。 分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是,每个栏目下的浏览量。 公式:记录计数 关键指标 ⊙访客数UV(包括新访客数、新访客比例) 定义:访客数(UV)即唯一访客数,一天之内网站的独立访客数( 以Cookie 为依据),一天内同一访客多次访问网站只计算1 个访客。 分析:在统计工具中,我们经常可以看到,独立访客和IP数的数据是不一样的,独立访客都多于IP数。那是因为,同一个IP地址下,可能有很多台电脑一同使用,这种情况,相信都很常见。 还有一种情况就是同一台电脑上,用户清空了缓存,使用360等工具,将cookie删除,这样一段时间后,用户再使用该电脑,进入网站,这样访问数UV也被重新加一。 当然,对于网站统计来说,关于访客数需要注意的另一个指标就是新访客数,新访客数据可以衡量,网站通过推广活动,所获得的用户数量。新访客对于总访客数的比值,可以看到网站吸引新鲜血液的能力,及如何保留旧有用户。 注册用户计算公式:对访问member.php?mod=register的不同ip,计数 关键指标 ⊙IP数 定义:一天之内,访问网站的不同独立IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。 分析:这是我们最熟悉的一个概念,无论同一个IP上有多少电脑,或者其他用户,从某种程度上来说,独立IP的多少,是衡量网站推广活动好坏最直接的数据。 公式:对不同ip,计数 关键指标 ⊙跳出率 定义:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。 分析:跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户。 该指标也可以衡量网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上之后,又流失掉了,可以说就是煮熟的鸭子飞了。比如,网站在某媒体上打广告推广,分析从这个推广来源进入的访客指标,其跳出率可以反映出选择这个媒体是否合适,广告语的撰写是否优秀,以及网站入口页的设计是否用户体验良好。 公式:(1)统计一天内只出现一条记录的ip,称为跳出数 (2)跳出数/PV 关键指标 ⊙版块热度排行榜 定义:版块的访问情况排行。 分析:巩固热点版块成绩,加强冷清版块建设。同时对学科建设也有影响。 公式:按访问次数、停留时间统计排序 开发步骤 1.把日志数据导入到hdfs中 2.明细日志使用hbase存储,能够利用ip、时间查询 3.使用hive进行数据的多维分析 4.把hive分析结果导出到mysql中 5.提供视图工具供用户使用, 指标查询mysql、明细查询hbase mysql表结构 汇总表 日期 acc_date 浏览量 pv 新用户 newer 独立ip iip 跳出数 jumper 停留时间 cum_time 状态200 s200 状态301 s301 状态304 s304 状态404 s404 ip、版块访问表 日期 acc_date ip ip 版块 forum 停留时间 cum_time hbase表结构 明细表 行键 date:ip 明细列族 detail:xxx 后续工作 1.周期性把日志数据导入到hdfs中 2.周期性把明细日志导入hbase存储 3.周期性使用hive进行数据的多维分析 4.周期性把hive分析结果导入到mysql中 java开发,设置调度器,增加监控 python/shell开发,结合crontab add jar ../build/contrib/hive_contrib.jar; CREATE TABLE apachelog ( host STRING, identity STRING, user STRING

文档评论(0)

WanDocx + 关注
实名认证
内容提供者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档