基于SparkSQL地海量数据仓库.PDFVIP

  • 12
  • 0
  • 约5.42千字
  • 约 26页
  • 2018-06-06 发布于江苏
  • 举报
基于SparkSQL地海量数据仓库

基于SparkSQL 的海量数据仓库 设计与实践 360大数据基础架构团队 李振炜 2017.5.13 Spark在360的实践与改进 SparkSQL多数据源整合 SparkSQL海量数据即席查询的实现 • 团队 • 奇虎360大数据基础架构团队 • 离线计算 • 早期spark推广应用到生产环境的团队; • 集群规模 • 总物理机结点数超过8k , • 单集群最大节点超过3k; • Spark任务 • 10w • SQL ,MLLib, Streaming • 改进 • SQL • 扩展语法,优化执行,提高效率 • MLLib • 实现多个社群发现算法 • 改进PageRank算法,比自带算法速度提升5倍 • 改进LR算法,支持千万+高维特征 • 为LDA算法扩展gibbs sampling • 改进word2vec ,精度接近单机版

文档评论(0)

1亿VIP精品文档

相关文档