SHC：使用 Spark SQL 高效地读写 HBase.docxVIP

下载本文档

15
0
约3.66千字
约 6页
2022-07-01 发布于湖南
举报

SHC：使用 Spark SQL 高效地读写 HBase.docx

SHC：使用 Spark SQL 高效地读写 HBase 原创过往记忆大数据过往记忆大数据 2021-04-09 本文（点击下面阅读即可进入） /archives/2522.html。 Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据，而目前 Spark 内置是支持很多数据源的，其中就包括了 HBase，但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据。这个 TableInputFormat 有一些缺点：一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据； TableInputFormat 中不支持 BulkGet；不能享遭到 Spark SQL 内置的 catalyst 引擎的优化。基于这些问题，来自 Hortonworks 的工程师们为我们带来了全新的 Apache Spark—Apache HBase Connector，下面简称 SHC。通过这个类库，我们可以直接使用 Spark SQL 将 DataFrame 中的数据写入到 HBase 中；而且我们也可以使用 Spark SQL 去查询 HBase 中的数据，在查询 HBase 的时候充分利用了 catalyst 引擎做了很多优化，比如分

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

SHC：使用 Spark SQL 高效地读写 HBase.docxVIP