基于SparkSQL的海量数据仓库.PDFVIP

  • 51
  • 0
  • 约5.42千字
  • 约 26页
  • 2017-08-14 发布于天津
  • 举报
基于的海量数据仓库设计与实践大数据基础架构团队李振炜在的实践与改进多数据源整合海量数据即席查询的实现团队奇虎大数据基础架构团队离线计算早期推广应用到生产环境的团队集群规模总物理机结点数超过单集群最大节点超过任务改进扩展语法优化执行提高效率实现多个社群发现算法改进算法比自带算法速度提升倍改进算法支持千万高维特征为算法扩展改进精度接近单机版引入了等深度学习替换封装为现在已经完成了作业向的迁移稳定运行的作业超过改进的支持修复数据倾斜出现修复使用堆外内存造成的内存超限修复动态资源调整的时候端出现死锁动机

基于SparkSQL 的海量数据仓库 设计与实践 360大数据基础架构团队 李振炜 2017.5.13 Spark在360的实践与改进 SparkSQL多数据源整合 SparkSQL海量数据即席查询的实现 • 团队 • 奇虎360大数据基础架构团队 • 离线计算 • 早期spark推广应用到生产环境的团队; • 集群规模 • 总物理机结点数超过8k , • 单

文档评论(0)

1亿VIP精品文档

相关文档