网站大量收购闲置独家精品文档,联系QQ:2885784924

Hive编程技术与应用第8章.pptxVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

智慧交通概述Hive编程技术与应用

目录8.1项目背景与数据情况8.2关键指标KPI8.3开发步骤分析8.4表结构设计8.5数据清洗过程8.6数据统计分析8.7本章小结

第8章Hive综合案例(一)本章基于国内某技术论坛中的数据日志,运用Hive相关技术实现网站关键指标的分析和统计,从数据的清洗到数据的分析处理给出详细的开发步骤。

第8章Hive综合案例(一)8.1项目背景与数据情况1.项目来源此案例的数据日志来源于国内某技术论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图8-1所示。图8-1项目来源网站—技术论坛

第8章Hive综合案例(一)本案例的目的是通过对该技术论坛的apachecommon日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。2.数据情况图8-2展示了该日志数据的记录格式,其中每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量。图8-2日志记录数据格式

第8章Hive综合案例(一)8.2关键指标KPI1.浏览量PV定义:页面浏览量即为PV(PageView),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1次。分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是每个栏目下的浏览量。计算公式:记录计数,从日志中获取访问次数,又可以细分为各个栏目下的访问次数。2.注册用户数该论坛的用户注册页面为member.php,而当用户单击注册时请求的又是member.php?mod=register的URL。计算公式:对访问member.php?mod=register的URL计数。3.IP数定义:一天之内,访问网站的不同独立IP个数加和。其中同一IP无论访问了几个页面,独立IP个数均为1。分析:这是我们最熟悉的一个概念,无论同一个IP上有多少计算机或者用户,从某种程度上来说,独立IP的多少是衡量网站推广活动好坏最直接的数据。计算公式:对不同的访问者的IP计数。

第8章Hive综合案例(一)4.跳出率定义:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数/全部的访问次数汇总。分析:跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户和忠实用户。该指标也可以衡量网络营销的效果,它指出有多少访客被网络营销吸引到宣传产品页或网站上之后又流失掉,可以说就是煮熟的鸭子飞了。比如,网站在某媒体上打广告推广,分析从这个推广来源进入的访客指标,其跳出率可以反映出选择这个媒体是否合适、广告语的撰写是否优秀,以及网站入口页的设计是否用户体验良好。计算公式:①统计一天内只出现一条记录的IP,称为跳出数;②跳出数/PV。5.版块热度排行榜定义:版块的访问情况排行。分析:巩固热点版块成绩,加强冷清版块建设,同时对学科建设也有影响。计算公式:按访问次数统计排序。

第8章Hive综合案例(一)8.3开发步骤分析1.上传日志文件至HDFS把日志数据上传到HDFS中进行处理,可以分为以下几种情况:(1)如果日志服务器数据较小、压力较小,可以直接使用Shell命令把数据上传到HDFS中。(2)如果日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据。(3)如果日志服务器非常多、数据量大,使用Flume进行数据处理。2.数据清洗使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析。3.统计分析使用Hive对清洗后的数据进行统计分析。4.分析结果导入MySQL使用Sqoop把Hive产生的统计结果导出到MySQL中。5.提供视图工具提供视图工具供用户使用,指标查询MySQL、明细则查询HBase。项目开发流程如图8-3所示。

第8章Hive综合案例(一)图8-3项目开发流程

第8章Hive综合案例(一)8.4表结构设计1.MySQL表结构设计这里使用MySQL存储关键指标的统计分析结果。MySQL的表结构设计图如图8-4所示。2.HBase表结构设计这里使用HBase存储明细日志,能够利用IP、时间查询。Hbase的表结构设计图如图8-5所示。图8-4MySQL表结构设计图图8-5HBase表结构设计图

第8章Hive综合案例(一)8.5数据清洗过程(1)根据上述关键指标的分析,我们所要统计分析的均不涉及访问状态(HTTP状态码)以及本次访问的流量,于是我们首先可以将这两项记录清理掉。(2)根据日

文档评论(0)

xiadaofeike + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8036067046000055

1亿VIP精品文档

相关文档