- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
山西职业技术学院《Hadoop大数据技术与项目实战》
用户留存率数据表设计及数据加载实训指导书
一、任务描述
创建ADS层留存率数据表,包含统计日期、设备新增日期、留存天数、留存数量、
设备新增数量、留存率等指标。加载用户登录信息数据,统计留存用户占当时新增用户
的比例。
二、能力目标
1.掌握sum聚合函数的计数累加操作
2.会正确使用sum、IF函数以及unionall操作
三、任务准备
1.启动HDFS及YARN服务
2.启动Hive元数据服务及客户端
四、任务实施
1.创建ADS层留存率数据表ads_user_retention_day_rate
切换到uzest数据库,执行删除同名表操作。
hive(default)useuzest;
hive(uzest)DROPTABLEIFEXISTSads_user_retention_day_rate;
下面创建用户留存率表ads_user_retention_day_rate。在本表中,包含有6个字段,
分别是统计日期、设备新增日期、留存天数、留存数量、设备新增数量、留存率等指标。
执行如下建表语句。
hive(uzest)createtableifnotexistsads_user_retention_day_rate(
`stat_date`stringCOMMENT统计日期,
1
山西职业技术学院《Hadoop大数据技术与项目实战》
`create_date`stringCOMMENT设备新增日期,
`retention_day`INTCOMMENT截止当前日期留存天数,
`retention_count`BIGINTCOMMENT留存数量,
`new_mid_count`BIGINTCOMMENT设备新增数量,
`retention_ratio`DECIMAL(10,2)COMMENT留存率
)COMMENT每日用户留存情况
ROWformatdelimited
FIELDSTERMINATEDBY\t
location/project/offlineDataWarehouse/uzest.db/ads/ads_user_retenti
on_day_rate/;
2.加载ads_user_retention_day_rate表数据
在DWT层的设备主题宽表dwt_uv_topic中,以设备号为单位,统计出了每一个设
备的首次登陆时间、末次登录时间以及累积登录天数,本节,基于这张表按照设定的规
则,统计用户留存率。
统计数据源是2021-04-04全天的用户登录信息。首先计算2021-04-01的3日留存
率,然后使用sum聚合函数来对所有的计数进行累加,求得4月1日的新增数量。接
下来,查询2021-04-01的设备新增数量,然后使用sum聚合函数来对所有的计数进行
累加,求得4月1日的新增数量。将查询出的日新增数量与留存数量相除,即可求得
2021-04-01的3日后留存率。同理,计算出4月2日的两天后用户留存率,以及4月
3日的1天后用户留存率。
最后,使用unionall将4月2日的两天后用户留存率,以及4月3日的1天后用户
留存率进行拼接,追加到该表中,执行如下HQL语句。
hive(uzest)INSERToverwriteTABLEads_user_retention_day_rate
Select*
Fromads_user_retention_day_rate
2
山西职业技术学院
您可能关注的文档
- Hadoop大数据技术与项目实战 教案 模块2 大数据平台部署.docx
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.2 Sqoop数据迁移实训指导书.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.1 pyecharts可视化工具介绍.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.2 导入数据、绘制大屏标题.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.4 绘制象形柱状图、水球图.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.7 数据大屏展示.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 辅助实训指导书——导入uzet.sql数据库文件至虚拟机数据库.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 模块5 项目数据可视化展示.pdf
- Hadoop大数据技术与项目实战 实训指导书1——5.3.4 绘制象形柱状图(沉默用户数).pdf
- Hadoop大数据技术与项目实战 实训指导书1——5.3.7 安装bs4第三方库.pdf
- Hadoop大数据技术与项目实战 实训指导书——3.1 项目数据源及产生方法.pdf
- Hadoop大数据技术与项目实战 实训指导书——3.2.2 Flume数据采集脚本设计.pdf
- Hadoop大数据技术与项目实战 实训指导书——3.2.3 拦截器创建流程.pdf
- Hadoop大数据技术与项目实战 实训指导书——3.2.6Flume数据采集执行脚本及实现.pdf
- Hadoop大数据技术与项目实战 实训指导书——3.2.7 Flume数据消费脚本设计.pdf
- Hadoop大数据技术与项目实战 实训指导书——3.2.8 Flume数据消费执行脚本及实现.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 2.1 大数据相关开发软件安装.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 2.2 Linux系统环境配置.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 2.3 Hadoop分布式集群环境搭建.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 2.8 Kafka集群环境搭建及应用.pdf
最近下载
- 2023江苏常熟农村商业银行招聘40人笔试历年典型考题及考点剖析附带答案详解.docx
- 2023年武汉科技大学计算机科学与技术专业《计算机系统结构》科目期末试卷A(有答案).docx VIP
- XX公司各生产车间绩效考核制度成本管理考核积分办法.doc
- 部编版道德与法治四年级下册 5合理消费 教学课件(两课时).ppt
- 大枣采摘机设计.docx
- 王牌教师的课堂管理术心得.pptx
- 电工(四级)理论知识考核要素细目表.pdf VIP
- 房地产开发,招标流程概要.doc
- 2023年武汉科技大学计算机科学与技术专业《操作系统》科目期末试卷B(有答案).docx VIP
- 食品安全追溯管理制度.pdf VIP
文档评论(0)