在Hive上实现SCD.docVIP

  • 23
  • 0
  • 约7.78千字
  • 约 8页
  • 2018-01-18 发布于河南
  • 举报
在Hive上实现SCD

在Hive上实现SCD 一、问题提出 官方一直称Hive是Hadoop数据仓库解决方案。既然是数据仓库就离不开多维、CDC、SCD这些概念,于是尝试了一把在Hive上实现SCD1和SCD2。这有两个关键点,一个是行级更新,一个是生成代理键。行级更新hive本身就是支持的,但需要一些配置,还有一些限制。 生成代理键在RDBMS上一般都用自增序列。Hive也有一些对自增序列的支持,本实验分别使用了窗口函数ROW_NUMBER()和hive自带的UDFRowSequence实现生成代理键。 二、软件版本 Hadoop 2.7.2 Hive 2.0.0 三、实验步骤 1. 准备初始数据文件a.txt,内容如下: [plain] view plain copy 在CODE上查看代码片派生到我的代码片 1,张三,US,CA 2,李四,US,CB 3,王五,CA,BB 4,赵六,CA,BC 5,老刘,AA,AA 2. 用ROW_NUMBER()方法实现初始装载和定期装载 (1)建立初始装载脚本init_row_number.sql,内容如下: [sql] view plain copy 在CODE上查看代码片派生到我的代码片 USE test; -- 建立过渡表 DROP TABLE IF EXISTS tbl_stg; CREATE TAB

文档评论(0)

1亿VIP精品文档

相关文档