- 1、本文档共1页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第9章答案
1.简答题
1)什么是ETL?
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过\t/_blank数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
2)Hbase的特点是什么?
Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。
Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。
Hbase为null的记录不会被存储.
基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本.
hbase是主从架构。hmaster作为主节点,hregionserver作为从节点。
3)Hbase和Hive有什么区别?
Hive和Hbase是两种基于Hadoop的不同技术--Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL的Key/vale数据库。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。
4)Hive的特点是什么?
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析
5)Hive的各模块组成?
用户接口
包含CLI,JDBC/ODBC,WebUI
元数据存储(metastore)
默认存储在自带的数据库derby中,线上使用时一般换为MySQL
驱动器(Driver)
解释器、编译器、优化器、运行器
Hadoop
用MapReduce进行计算,用HDFS进行存储
您可能关注的文档
最近下载
- 2024届上海市宝山区通河中学高一上数学期末质量检测试题含解析.doc VIP
- 山东-造价文件汇编.pdf
- 2025年高考数学一轮复习讲义专题32 数列的概念与简单表示法解析版.docx VIP
- 二年级上册数学试题 长沙市雨花区2020-2021学年上学期二年级期末考试数学试题(人教版扫描版,无答案).docx VIP
- WIFI专项测试用例.xls VIP
- 2023年上海中考一模化学试题分类汇编 专题7 简答题溶液题、压轴题含详解.docx VIP
- 稳重职称评定述职报告答辩通用PPT模板.pptx VIP
- 002直接口服饮片车间HVAC系统验证方案(含风险评估有报.docx
- 消费心理与广告研究的相关论文.docx VIP
- 八年级整式的乘法与因式分解思维导图.doc
文档评论(0)