- 15
- 0
- 约3.66千字
- 约 6页
- 2022-07-01 发布于湖南
- 举报
SHC:使用 Spark SQL 高效地读写 HBase
原创过往记忆大数据 过往记忆大数据
2021-04-09
本文(点击下面阅读即可进入) /archives/2522.html。
Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据。这个 TableInputFormat 有一些缺点:
一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据;
TableInputFormat 中不支持 BulkGet;
不能享遭到 Spark SQL 内置的 catalyst 引擎的优化。
基于这些问题,来自 Hortonworks 的工程师们为我们带来了全新的 Apache Spark—Apache HBase Connector,下面简称 SHC。通过这个类库,我们可以直接使用 Spark SQL 将 DataFrame 中的数据写入到 HBase 中;而且我们也可以使用 Spark SQL 去查询 HBase 中的数据,在查询 HBase 的时候充分利用了 catalyst 引擎做了很多优化,比如分
您可能关注的文档
最近下载
- 2024新高考I卷数学真题详细解析(含选填) .pdf VIP
- 安庆石化炼化一体化项目质量管理体系文件最新版.doc VIP
- 2025年中国民用航空飞行学院辅导员考试笔试真题汇编附答案.docx VIP
- 立式半自动钻床 机械原理课程设计立式半自动钻床 机械原理课程设计.pdf VIP
- 2026届江苏南京外国语学校等学校高三年级第三次质量检测数学试卷.doc VIP
- 2025年中国民用航空飞行学院辅导员考试笔试题库最新.docx VIP
- 2024年中国民用航空飞行学院辅导员考试参考题库附答案.docx VIP
- AI大模型训练大规模智算中心建设方案【239页WORD】.docx VIP
- 2025年7月新疆高中学业水平考试地理试卷真题(含答案详解).docx
- 中国民用航空飞行学院辅导员考试试题及答案2023.docx VIP
原创力文档

文档评论(0)