- 23
- 0
- 约7.78千字
- 约 8页
- 2018-01-18 发布于河南
- 举报
在Hive上实现SCD
在Hive上实现SCD
一、问题提出
官方一直称Hive是Hadoop数据仓库解决方案。既然是数据仓库就离不开多维、CDC、SCD这些概念,于是尝试了一把在Hive上实现SCD1和SCD2。这有两个关键点,一个是行级更新,一个是生成代理键。行级更新hive本身就是支持的,但需要一些配置,还有一些限制。
生成代理键在RDBMS上一般都用自增序列。Hive也有一些对自增序列的支持,本实验分别使用了窗口函数ROW_NUMBER()和hive自带的UDFRowSequence实现生成代理键。
二、软件版本
Hadoop 2.7.2
Hive 2.0.0
三、实验步骤
1. 准备初始数据文件a.txt,内容如下:
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
1,张三,US,CA
2,李四,US,CB
3,王五,CA,BB
4,赵六,CA,BC
5,老刘,AA,AA
2. 用ROW_NUMBER()方法实现初始装载和定期装载
(1)建立初始装载脚本init_row_number.sql,内容如下:
[sql] view plain copy 在CODE上查看代码片派生到我的代码片
USE test;
-- 建立过渡表
DROP TABLE IF EXISTS tbl_stg;
CREATE TAB
您可能关注的文档
- 201209学期《数据库原理及应用》复习纲要二.doc
- 计算机系统操作基础.doc
- 孩子对父母依恋.doc
- 解析Windows操作系统“无法打开”故障.doc
- Delphi语言开发工具》2008B试卷.doc
- SRVCTL是ORACLEi RAC集群配置管理的工具.docx
- php实现批量上传图片的技巧~.doc
- php上传图片精典源码.doc
- 数据库系统概论试卷2004~2005(A).doc
- 第3-2章_输入输出.ppt
- 2026届甘肃省民勤三中高考化学三模试卷含解析.doc
- 2021年人力资源年终工作汇报 附2026年人力预算测算表 可直接套用.pptx
- 2021年直播间氛围打造提升停留时长培训课件.pptx
- 2026届广西钦州市第二中学高三第二次模拟考试历史试卷含解析.doc
- 2020应对儿童厌学叛逆专属心理健康教育宣讲课件.pptx
- 2026届江苏省南通巿启东中学5月高三月考物理试题.doc
- 2026年初中语文写作课件.pptx
- 2026年电子元件检测实训教程PPT.pptx
- 2026届安徽省肥东县圣泉中学高三下期末模拟联考数学试题.doc
- 广东省惠东县惠东高级中学2026届高三考前热身生物试卷含解析.doc
最近下载
- 2026年开封大学单招职业适应性测试题库及参考答案详解1套.docx VIP
- 数字地面模型地形分析.ppt
- 2026年开封大学单招职业适应性测试题库及答案详解1套.docx VIP
- 综合执法证考试题及答案.doc VIP
- 高中学业水平考试生物精要知识点.docx VIP
- 《劳动法与社会保障法社会保障法》课程教学大纲.docx VIP
- 高精度复合轴跟踪控制系统.ppt VIP
- 安徽省合肥市第八中学2024-2025学年高一下学期期中检测生物试卷(含答案).pdf VIP
- 2024年浙江省温州市中考科学试题卷(含答案解析).docx
- 2026年开封职业学院单招职业适应性测试题库及参考答案详解1套.docx VIP
原创力文档

文档评论(0)