- 12
- 0
- 约5.42千字
- 约 26页
- 2018-06-06 发布于江苏
- 举报
基于SparkSQL地海量数据仓库
基于SparkSQL 的海量数据仓库
设计与实践
360大数据基础架构团队 李振炜
2017.5.13
Spark在360的实践与改进
SparkSQL多数据源整合
SparkSQL海量数据即席查询的实现
• 团队
• 奇虎360大数据基础架构团队
• 离线计算
• 早期spark推广应用到生产环境的团队;
• 集群规模
• 总物理机结点数超过8k ,
• 单集群最大节点超过3k;
• Spark任务
• 10w
• SQL ,MLLib, Streaming
• 改进
• SQL
• 扩展语法,优化执行,提高效率
• MLLib
• 实现多个社群发现算法
• 改进PageRank算法,比自带算法速度提升5倍
• 改进LR算法,支持千万+高维特征
• 为LDA算法扩展gibbs sampling
• 改进word2vec ,精度接近单机版
您可能关注的文档
- 一元一次方程中有关数的问题.ppt
- 一只寿碗代表的是一份伟大的爱.pptx
- 下半全国教师资笔试重要分析初中生物.PDF
- 业内专家揭秘:药店里不为人知的秘密.doc
- 业内人探讨音乐产业前景 "粉丝经济"成发展核心.docx
- 业绩低于预期,基础谋未来.PDF
- 东营巿专业技术人员综合素质能力的培养与提升 分卷.doc
- 中考数学适应性拟试题十七.doc
- 中招思想品德复备考策略研讨会.ppt
- 义乌巿大陈镇PE管材及配件年度采购项目(重新招标).doc
- 安全生产管理员能力培训.pptx
- 咽异感症与心理健康促进.pptx
- 咽异感症与扁桃体炎的鉴别.pptx
- 咽异感症与抑郁症的关系.pptx
- 咽异感症与环境污染的关系.pptx
- 《生动的数据》课件-2025-2026学年沪教版(新教材)小学美术三年级下册.pptx
- 《校园微电影宣传策划》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 《 春华秋实绘花鸟》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 管理层安全培训策略.pptx
- 《把“大自然”穿在身上》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
原创力文档

文档评论(0)