- 111
- 0
- 约2.4千字
- 约 24页
- 2017-10-30 发布于天津
- 举报
基于spark我们做了什么
基于Spark构建即席查询平台 自我介绍 基础架构部 分布式计算团队 孙垚光 09年-11年:Linux内核 网络协议栈优化 11年-今:分布式计算 批处理/内存计算/流式等 目录 即席查询 为什么是Spark 基于Spark,我们做了什么 应用案例 后续规划 即席查询 面向“人”的查询 即席(Ad-Hoc): 查询模式相对不固定 数据没有(时间/成本)做过多预处理 数据暂时不知如何处理 交互式(Interactive) 查询具有较高时效性 为什么是Spark MPP vs Hadoop MPP(Impala) Hadoop(Hive/SparkSQL) 扩展性 1000台以内/PB以下 千台以上/PB以上 查询延迟 毫秒~秒 秒~分钟 架构复杂性 中等 复杂 容错 无 有 调度策略 Gang/Transaction 分批调度 与存储结合程度 紧密 一般 基于Spark我们做了什么 更易用 更稳定 安全/资源隔离 性能/时效性 整体架构 基于Spark我们做了什么 更易用 Platform as a Service 用户不再关心部署/升级/调参/监控 各种形式的API Web/CLI/JDBC/SDK/Tools等 合理/简洁的概念抽象 Resource/Project/Dataset/Table/Partition 账单 Query粒度的资源消耗 基于Spark我们做了什么
您可能关注的文档
- 基于条件随机场的农业命名实体识别研究-河北农业大学学报.pdf
- 基于条件随机场的汉语框架语义角色自动标注-山西大学软件学院.pdf
- 基于条件随机场的藏语自动分词方法研究与实现-模式识别国家重点.pdf
- 基于条件随机场的藏文人名识别技术研究-南京大学学报自然科学.pdf
- 基于梯形云模型的成绩定性评价-电子设计工程.pdf
- 基于特征线方程n一s方程非增量型分离算法.pdf
- 基于条件粒子滤波的高动态高灵敏度gnss信号跟踪算法.pdf
- 基于碳纤维红外板加热的干燥装备设计与试验-ingentaconnect.pdf
- 基于太湖地区mfrsr遥感大气气溶胶光学特性和大气污染状况.pdf
- 基于随机谱梯度的在线学习-计算机科学.pdf
- 教学管理流程再造与优化在远程教育中的创新与实践教学研究课题报告.docx
- 2026年增稠剂行业社会责任报告.docx
- 2026年八年级政治下册基础知识复习提纲全册.pdf
- 2026年车联网五年发展:车路协同市场报告.docx
- 2026年增稠剂行业绿色环保技术应用报告.docx
- 2025-2026学年初中英语七年级下册(2024)仁爱科普版(2024)教学设计合集.docx
- 社团活动与人工智能教育融合的创新模式构建与实践教学研究课题报告.docx
- 初中历史教学中乡土史教学资源的开发与利用课题报告教学研究课题报告.docx
- 智能辅助下的高中化学教师专业能力培养策略研究——以精准教研为视角教学研究课题报告.docx
- AI语音翻译工具在英语写作创意激发中的辅助作用分析课题报告教学研究课题报告.docx
原创力文档

文档评论(0)