网站大量收购独家精品文档,联系QQ:2885784924

Hadoop大数据技术与项目实战 实训指导书——4.3.2 DWD层启动日志表设计及数据加载.pdf

Hadoop大数据技术与项目实战 实训指导书——4.3.2 DWD层启动日志表设计及数据加载.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

山西职业技术学院《Hadoop大数据技术与项目实战》

DWD层启动日志表设计及数据加载

一、任务描述

首先创建DWD层的启动日志表dwd_start_log,使用get_json_object()函数对上一

层ODS层ods_start_log表的line字段值进行解析抽取后,执行insertoverwrite操作,

将查询出的数据插入到DWD层的启动日志表dwd_start_log中,在插入过程中,将当前

的统计日期“dt”作为分区字段。

二、能力目标

1.掌握使用时间维度将数据分区

2.会使用get_json_object()函数解析抽取数据

三、任务准备

1.启动HDFS及YARN服务

2.启动Hive元数据服务及客户端

四、任务实施

1.创建DWD层的启动日志表dwd_start_log

在node1节点的Hive会话窗口中,切换到uzest数据库

hive(default)useuzest;

执行删除同名表的操作

hive(uzest)droptableifexistsdwd_start_log;

在当前的DWD层,启动日志表当中包含有两种含义的字段,第一种字段是用户行

为日志当中的公共字段部分,第二种字段,是用户行为日志当中的启动事件字段,在创

1

山西职业技术学院《Hadoop大数据技术与项目实战》

建该表的时候,该表选择了分区表的建表方式,因为每天都会生成大量的用户行为数据

需要去处理。根据业务背景,该表采用日期进行分区存储。同时,该表还采用parquet

列式存储的方式来对当前表的数据进行存储,并且在建表时,指定了该表对应在HDFS

上的存储路径。在使用列式存储数据的同时,采用了拉兹罗的压缩格式,目的是提高当

前表数据在查询过程中的效率。

执行建表语句:

hive(uzest)createtableifnotexistsdwd_start_log(

`mid_id`string,--设备id

`user_id`string,--用户id

`version_code`string,--程序版本号

`version_name`string,--程序版本名

`lang`string,--系统语言

`source`string,--渠道号

`os`string,--Android系统版本

`area`string,--区域

`model`string,--手机型号

`brand`string,--手机品牌

`sdk_version`string,--sdkVersion

`gmail`string,--app名称

`height_width`string,--屏幕宽高

`app_time`string,--客户端日志产生时的时间

`network`string,--网络模式

`lng`string,--经度

`lat`string,--纬度

`entry`string,--入口

`open_ad_type`string,--开屏广告类型

`action`string,--状态

2

山西职业技术学院《Hadoop大数据技术与项目实战》

`loading_time`string,-

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档