开源大数据处理系统工具大全.pdfVIP

下载本文档

1
0
约3.14万字
约 29页
2022-09-19 发布于上海
举报
版权申诉

开源大数据处理系统工具大全.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

开源⼤数据处理系统⼯具⼤全查询引擎⼀、Phoenix 贡献者：：简介：这是⼀个Java中间层，可以让开发者在Apache HBase上执⾏SQL查询。Phoenix完全使⽤Java编写，代码位于上，并且提供了⼀个客户端可嵌⼊的JDBC驱动。 Phoenix查询引擎会将SQL查询转换为⼀个或多个HBase scan，并编排执⾏以⽣成标准的JDBC结果集。直接使⽤HBase API、协同处理器与⾃定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的⾏数来说，其性能量级是秒。 Phoenix最值得关注的⼀些特性有： ❶嵌⼊式的JDBC驱动，实现了⼤部分的java.sql接⼝，包括元数据API ❷可以通过多部⾏键或是键/值单元对列进⾏建模 ❸完善的查询⽀持，可以使⽤多个谓词以及优化的扫描键 ❹DDL⽀持：通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列 ❺版本化的模式仓库：当写⼊数据时，快照查询会使⽤恰当的模式 ❻DML⽀持：⽤于逐⾏插⼊的UPSERT VALUES、⽤于相同或不同表之间⼤量数据传输的UPSERT❼SELECT、⽤于删除⾏的DELETE ❽通过客户端的批处理实现的有限的事务⽀持 ❾单表——还没有连接，同时⼆级索引也在开发当中 ➓紧跟ANSI SQL标准⼆、Stinger 贡献者：：简介：原叫Tez，下⼀代Hive,Hortonworks主导开发，运⾏在YARN上的DAG计算框架。某些测试下，Stinger能提升10倍左右的性能，同时会让Hive⽀持更多的SQL，其主要优点包括： ❶让⽤户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能，⽀持WHERE查询，让Hive的样式系统更符合SQL模型。 ❷优化了Hive请求执⾏计划，优化后请求时间减少90%。改动了Hive执⾏引擎，增加单Hive任务的被秒处理记录数。 ❸在Hive社区中引⼊了新的列式⽂件格式（如ORC⽂件），提供⼀种更现代、⾼效和⾼性能的⽅式来储存Hive数据。 ❹引⼊了新的运⾏时框架——Tez，旨在消除Hive的延时和吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job。这将优化Hadoop内部的执⾏链，彻底加速Hive负载处理。三、Presto 贡献者：：Facebook 简介：Facebook开源的数据查询引擎Presto ，可对250PB以上的数据进⾏快速地交互式分析。该项⽬始于 2012 年秋季开始开发，⽬前该项⽬已经在超过 1000 名 Facebook 雇员中使⽤，运⾏超过 30000 个查询，每⽇数据在 1PB 级别。Facebook 称 Presto 的性能⽐诸如 Hive 和 Map*Reduce 要好上 10 倍有多。 Presto 当前⽀持 ANSI SQL 的⼤多数特效，包括联合查询、左右联接、⼦查询以及⼀些聚合和计算函数；⽀持近似截然不同的计数 (DISTINCT COUNT)等。四、Shark 简介：Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库⾥的表信息，实际HDFS上的数据和⽂件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell 模式下使⽤ rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，⽀持⾃⼰编写简单的机器学习或简单分析处理函数，对HQL结果进⼀步分析计算。 ❶Shark速度快的原因除了Spark平台提供的基于内存迭代计算外，在设计上还存在对Spark上进⾏了⼀定的改造，主要有 ❷partial DAG execution：对join优化，调节并⾏粒度，因为Spark本⾝的宽依赖和窄依赖会影响并⾏计算和速度基于列的压缩和存储：把HQL表数据按列存，每列是⼀个array，存在JVM上，避免了JVM GC低效，⽽压缩和解压相关的技术是Yahoo! 提供的。结来说，Shark是⼀个插件式的东西，在我现有的Spark和Hive及hadoop-client之间，在这两套都可⽤的情况下，Shark只要获取Hive的配置（还有metastore和exec等关键包），Spark的路径，Shark就能利⽤Hive和Spark，把HQL解析成RDD 的转换，把数据取到Spark 上运算和分析。在SQL on Hadoop这块，Shark有别于Impala，S