- 4
- 0
- 约9.11千字
- 约 9页
- 2016-12-05 发布于北京
- 举报
2014技术
SQL on Hadoop的最新进展及7项相关技术分享大数据是现在非常热门的一个话题,从工程或者技术的角度来看,大数据的核心是如何存储、分析、挖掘海量的数据解决实际的问题。那么对于一个工程师或者分析师来说,如何查询和分析TB/PB级别的数据是在大数据时代不可回避的问题。SQL on Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上? SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本文从技术架构和最新进展两个角度分析一下各种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。在互联网企业和有大数据处理需求的传统企业中,基于Hadoop构建的数据仓库的数据来源主要有以下几个:?通过Flume/Scribe/Chukwa这样的日志收集和分析系统把来自Apache/Nginx的日志收集到HDFS上,然后通过Hive查询。?通过Sqoop这样的工具把用户和业务维度数据(一般存储在Oracle/MySQL中)定期导入Hive,那么OLTP数据就有了一个用于OLAP的副本了。?通过ETL工具从其他外部DW数据源里导入的数据。目前所有的SQL on Hadoop产品其实都是在某个或者
您可能关注的文档
最近下载
- 化学化工物性数据手册.pdf VIP
- 金属非金属矿山安全标准化管理制度-xx矿业资料.doc VIP
- 康明斯PT泵燃油系统.ppt VIP
- 默纳克荣耀柜大功率别墅梯配一体化轿顶检修盒(MCTC-CTW-B3&A9适用)电气原理图(含手拉门)_中文版.pdf VIP
- 2026【期中】家长会:致敬每位不容易的家长 课件(共37张PPT).pptx VIP
- 基于stm32肺活量测量装置设计.docx
- 2026年职业技能中医康复理疗师-理论知识参考题库含答案解析(5卷题有答案).docx VIP
- 要想知道自己姓氏来源去看:四川渠县百家姓姓氏探源.pdf VIP
- 小儿肾积水诊疗指南(2025年版).docx VIP
- 基于低碳理念的城市滨水公园景观设计——以宁德时代工业文化园设计为例.pdf
原创力文档

文档评论(0)