SHC:使用 Spark SQL 高效地读写 HBase.docxVIP

  • 15
  • 0
  • 约3.66千字
  • 约 6页
  • 2022-07-01 发布于湖南
  • 举报
SHC:使用 Spark SQL 高效地读写 HBase 原创过往记忆大数据 过往记忆大数据 2021-04-09 本文(点击下面阅读即可进入) /archives/2522.html。 Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据。这个 TableInputFormat 有一些缺点: 一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据; TableInputFormat 中不支持 BulkGet; 不能享遭到 Spark SQL 内置的 catalyst 引擎的优化。 基于这些问题,来自 Hortonworks 的工程师们为我们带来了全新的 Apache Spark—Apache HBase Connector,下面简称 SHC。通过这个类库,我们可以直接使用 Spark SQL 将 DataFrame 中的数据写入到 HBase 中;而且我们也可以使用 Spark SQL 去查询 HBase 中的数据,在查询 HBase 的时候充分利用了 catalyst 引擎做了很多优化,比如分

文档评论(0)

1亿VIP精品文档

相关文档