- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
山西职业技术学院《Hadoop大数据技术与项目实战》
DWD层启动日志表设计及数据加载
一、任务描述
首先创建DWD层的启动日志表dwd_start_log,使用get_json_object()函数对上一
层ODS层ods_start_log表的line字段值进行解析抽取后,执行insertoverwrite操作,
将查询出的数据插入到DWD层的启动日志表dwd_start_log中,在插入过程中,将当前
的统计日期“dt”作为分区字段。
二、能力目标
1.掌握使用时间维度将数据分区
2.会使用get_json_object()函数解析抽取数据
三、任务准备
1.启动HDFS及YARN服务
2.启动Hive元数据服务及客户端
四、任务实施
1.创建DWD层的启动日志表dwd_start_log
在node1节点的Hive会话窗口中,切换到uzest数据库
hive(default)useuzest;
执行删除同名表的操作
hive(uzest)droptableifexistsdwd_start_log;
在当前的DWD层,启动日志表当中包含有两种含义的字段,第一种字段是用户行
为日志当中的公共字段部分,第二种字段,是用户行为日志当中的启动事件字段,在创
1
山西职业技术学院《Hadoop大数据技术与项目实战》
建该表的时候,该表选择了分区表的建表方式,因为每天都会生成大量的用户行为数据
需要去处理。根据业务背景,该表采用日期进行分区存储。同时,该表还采用parquet
列式存储的方式来对当前表的数据进行存储,并且在建表时,指定了该表对应在HDFS
上的存储路径。在使用列式存储数据的同时,采用了拉兹罗的压缩格式,目的是提高当
前表数据在查询过程中的效率。
执行建表语句:
hive(uzest)createtableifnotexistsdwd_start_log(
`mid_id`string,--设备id
`user_id`string,--用户id
`version_code`string,--程序版本号
`version_name`string,--程序版本名
`lang`string,--系统语言
`source`string,--渠道号
`os`string,--Android系统版本
`area`string,--区域
`model`string,--手机型号
`brand`string,--手机品牌
`sdk_version`string,--sdkVersion
`gmail`string,--app名称
`height_width`string,--屏幕宽高
`app_time`string,--客户端日志产生时的时间
`network`string,--网络模式
`lng`string,--经度
`lat`string,--纬度
`entry`string,--入口
`open_ad_type`string,--开屏广告类型
`action`string,--状态
2
山西职业技术学院《Hadoop大数据技术与项目实战》
`loading_time`string,-
您可能关注的文档
- Hadoop大数据技术与项目实战 教案 模块2 大数据平台部署.docx
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.2 Sqoop数据迁移实训指导书.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.1 pyecharts可视化工具介绍.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.2 导入数据、绘制大屏标题.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.4 绘制象形柱状图、水球图.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 5.3.7 数据大屏展示.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 辅助实训指导书——导入uzet.sql数据库文件至虚拟机数据库.pdf
- Hadoop大数据技术与项目实战 实训指导书及代码资源 模块5 项目数据可视化展示.pdf
- Hadoop大数据技术与项目实战 实训指导书1——5.3.4 绘制象形柱状图(沉默用户数).pdf
- Hadoop大数据技术与项目实战 实训指导书1——5.3.7 安装bs4第三方库.pdf
文档评论(0)