06-SQL-on-Hadoop企业级应用实战之Hive(2).pdfVIP

  • 3
  • 0
  • 约9.61千字
  • 约 26页
  • 2020-09-10 发布于福建
  • 举报
Hive 作者:whoami 走向分布式? 一个系统走向分布式,一定有其不得不为的理由。可扩展性是最常见的理由之一。 我先简单的将“可伸缩” 的需求分成两种: • Data Scalability: 单台机器的容量不足以(经济的) 承载所有资料,所以需要 分散。如:NoSQL • Computing Scalability: 单台机器的运算能力不足以(经济的) 及时完成运算所 以需要分散。如:科学运算。不管是哪一种需求,在决定采用分布式架构时, 就几乎注定要接受一些牺牲: 1.牺牲效率:网路延迟与节点间的协调,都会降低执行效率。 2. 牺牲AP 弹性:有些在单机上能执行的运算,无法轻易在分布式环境中完成。 3.牺牲维护维运能力:分散式架构的问题常常很难重现,也很难追踪.另外,跟单机系 统一样,也有一些系统设计上的tradeoffs(权衡) 4. CPU 使用效率优化或是IO 效率优化 5.读取优化或是写入优化 6. 吞吐率优化或是网络延迟优化 7.资料一致性或是资料可得性,选择了不同的tradeoff ,就会有不同的系统架构。 Hive特点 • ETL (Extraction-Transformation-Loading )工具 • 构建在hadoop之上的数据仓库 • Hive定义了一种hql语句类似sql查询语句 • 常用于离线数据处理, • HQL底层解析为MR程序执行 Hive Hive 构成 Hive on Tez 性能  Impala官网 参考:/blog/2014/09/new-benchmarks-for-sql-on-hadoop- impala-1-4-widens-the-performance-gap /blog/2014/05/new-sql-choices-in-the-apache-hadoop- ecosystem-why-impala-continues-to-lead/ HDP官网 参考:/HDPDocuments/HDP2/HDP- /bk_installing_manually_book/content/rpm-chap-tez-2.html /blog/evaluating-hive-with-tez-as-a-fast-query-engine/ LanguageManual 1、Hive数据类型 2、Hive支持的文件格式 3、Hive CLI And ThriftServer/JDBC 4 、DML/DDL 参考: Hive Type: /confluence/display/Hive/LanguageManual+Types Hive Fileformats: /confluence/display/Hive/FileFormats Hive Cli: /confluence/display/Hive/LanguageManual+Cli Commands line: /confluence/display/Hive/LanguageManual+Commands LanguageManual:/confluence/display/Hive/LanguageManual LanguageManual|DateType 隐式转换支持 LanguageManual|CLI/ hiveserver/jdbc • Commands – 参考:/confluence/display/Hive/LanguageManual+Commands • CLI – 参考:/confluence/display/Hive/LanguageManual+Cli • Hiveserver/jdbc – 参考:/confluence/display/Hive/Setting+up+HiveServer2 /confluence/display/Hive/H

文档评论(0)

1亿VIP精品文档

相关文档