06-SQL-on-Hadoop企业级应用实战之Hive(2).pdfVIP

下载本文档

3
0
约9.61千字
约 26页
2020-09-10 发布于福建
举报

06-SQL-on-Hadoop企业级应用实战之Hive(2).pdf

Hive 作者：whoami 走向分布式？一个系统走向分布式，一定有其不得不为的理由。可扩展性是最常见的理由之一。我先简单的将“可伸缩” 的需求分成两种： • Data Scalability: 单台机器的容量不足以(经济的) 承载所有资料，所以需要分散。如：NoSQL • Computing Scalability: 单台机器的运算能力不足以(经济的) 及时完成运算所以需要分散。如：科学运算。不管是哪一种需求，在决定采用分布式架构时，就几乎注定要接受一些牺牲： 1.牺牲效率：网路延迟与节点间的协调，都会降低执行效率。 2. 牺牲AP 弹性：有些在单机上能执行的运算，无法轻易在分布式环境中完成。 3.牺牲维护维运能力：分散式架构的问题常常很难重现，也很难追踪.另外，跟单机系统一样，也有一些系统设计上的tradeoffs(权衡) 4. CPU 使用效率优化或是IO 效率优化 5.读取优化或是写入优化 6. 吞吐率优化或是网络延迟优化 7.资料一致性或是资料可得性,选择了不同的tradeoff ，就会有不同的系统架构。 Hive特点 • ETL （Extraction-Transformation-Loading ）工具 • 构建在hadoop之上的数据仓库 • Hive定义了一种hql语句类似sql查询语句 • 常用于离线数据处理, • HQL底层解析为MR程序执行 Hive Hive 构成 Hive on Tez 性能  Impala官网参考：/blog/2014/09/new-benchmarks-for-sql-on-hadoop- impala-1-4-widens-the-performance-gap /blog/2014/05/new-sql-choices-in-the-apache-hadoop- ecosystem-why-impala-continues-to-lead/ HDP官网参考：/HDPDocuments/HDP2/HDP- /bk_installing_manually_book/content/rpm-chap-tez-2.html /blog/evaluating-hive-with-tez-as-a-fast-query-engine/ LanguageManual 1、Hive数据类型 2、Hive支持的文件格式 3、Hive CLI And ThriftServer/JDBC 4 、DML/DDL 参考： Hive Type: /confluence/display/Hive/LanguageManual+Types Hive Fileformats: /confluence/display/Hive/FileFormats Hive Cli: /confluence/display/Hive/LanguageManual+Cli Commands line: /confluence/display/Hive/LanguageManual+Commands LanguageManual：/confluence/display/Hive/LanguageManual LanguageManual|DateType 隐式转换支持 LanguageManual|CLI/ hiveserver/jdbc • Commands – 参考：/confluence/display/Hive/LanguageManual+Commands • CLI – 参考：/confluence/display/Hive/LanguageManual+Cli • Hiveserver/jdbc – 参考：/confluence/display/Hive/Setting+up+HiveServer2 /confluence/display/Hive/H

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

06-SQL-on-Hadoop企业级应用实战之Hive(2).pdfVIP