2014技术.docxVIP

  • 4
  • 0
  • 约9.11千字
  • 约 9页
  • 2016-12-05 发布于北京
  • 举报
2014技术

SQL on Hadoop的最新进展及7项相关技术分享大数据是现在非常热门的一个话题,从工程或者技术的角度来看,大数据的核心是如何存储、分析、挖掘海量的数据解决实际的问题。那么对于一个工程师或者分析师来说,如何查询和分析TB/PB级别的数据是在大数据时代不可回避的问题。SQL on Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上? SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本文从技术架构和最新进展两个角度分析一下各种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。在互联网企业和有大数据处理需求的传统企业中,基于Hadoop构建的数据仓库的数据来源主要有以下几个:?通过Flume/Scribe/Chukwa这样的日志收集和分析系统把来自Apache/Nginx的日志收集到HDFS上,然后通过Hive查询。?通过Sqoop这样的工具把用户和业务维度数据(一般存储在Oracle/MySQL中)定期导入Hive,那么OLTP数据就有了一个用于OLAP的副本了。?通过ETL工具从其他外部DW数据源里导入的数据。目前所有的SQL on Hadoop产品其实都是在某个或者

文档评论(0)

1亿VIP精品文档

相关文档