Apache Spark 2.3 重要特性介绍.PDFVIP

  • 3
  • 0
  • 约4.89千字
  • 约 6页
  • 2018-05-21 发布于天津
  • 举报
Apache Spark 2.3 重要特性介绍 Spark大数据博客 - Apache Spark 2.3 重要特性介绍 本文翻译自:Introducing Apache Spark 2.3 为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他三种分别 是自带的独立模式Standalone,YARN、Mesos)。除了这些比较具有里程碑的重要功能外,Spar k 2.3 还有以下几个重要的更新: 引入 DataSource v2 APIs [SPARK-15689, SPARK-20928] 矢量化(Vectorized)的 ORC reader [SPARK-16060] Spark History Server v2 with K-V store [SPARK

文档评论(0)

1亿VIP精品文档

相关文档