ArchSummit(黄锐华 v2).pptxVIP

  • 17
  • 0
  • 约3.7千字
  • 约 43页
  • 2018-02-03 发布于浙江
  • 举报
ArchSummit(黄锐华 v2)

神马搜索大数据基础架构 黄锐华/阿里巴巴(神马搜索) 内容提纲 神马业务发展 神马大数据架构发展的三个阶段 未来的发展思路 一些心得 神马业务发展 关于神马搜索 神马业务现状 神马业务发展的3个阶段 知识化搜索 抓取、索引、排序 资源覆盖 纵深雕琢 横向铺量 行业深度 信息直达 智能化 个性化 业务发展对架构的挑战 计算模型 算法模型 架构的作用 基础保障 保障流程稳定 推进业务发展 助推业务 丰富架构 让数据处理更简单 更多可能 计算性能提升促使DL大规模应用 神马大数据架构发展的三个阶段 架构发展 step3,功能和平台的标准化 代表:通用算法、通用调度、流程语言 step2,满足复杂的数据挖掘和处理需求。 业务代表:日志挖掘、数据融合、推荐模型 step1,满足大规模数据存储和(时效性)计算。 业务代表:抓取、索引、排序 为应对业务发展,神马大数据架构发展共经历3个阶段 业务需求 网页存储、索引流程 垂直业务 时效性数据 架构需求 大规模存储 大规模计算 (m-r) 时效性 大量流程 Step1:背景 Step1:常规解决思路 时效性流程 批量流程 数据源 kafka storm hbase hive mr job HiveQL 数据源 Step1:需求难点 缺乏高效存储服务 数据量大 高时效性 扫表性能 稳定性 Hbase无法满足 超大规模网页数据 扫表性能 内存和服务稳定 Hive无法满足 随机读写 Step1:存储解决方案(sm_db) NoSQL 关系型 软件 服务 sm_db Azure Table HBase CouchDB RDS/DRDS OceanBase MySQL/TDDL Cassandra MongoDB 键值 文档 Oracle/RAC AWS RDS Azure DocumentDB AWS DynamoDB 自建分布式结构化存储系统 Step1: sm_db设计 实现简化 固定分区 固定key-range Buffer替换Cache 功能增强 开放Merge、Clean策略 snapshot机制 多partition Step1: sm_db结构 RedoLog fileslab1 pangu (hdfs) MemSlab dump Snapshot MemSlab Buffer fileslab2 fileslab3 fileslab1 Merge write client read client Partition内部结构 Step1: sm_db扫表 MemSlab FileSlab1 FileSlab2 Snapshot1 ScanJob1 FileSlab4 Snapshot2 ScanJob2 FileSlab3 dump make snapshot user job make snapshot merge file user job 通过Snapshot机制,直接扫描文件本身,并保证不同扫描任务并行。 Step1:sm_db规模 数据量:几十PB 每天写入:千亿级别 每秒读取:百万级别 Step1:整体架构 yarn/fuxi hdfs/pangu sm_db hbase 基础设施 存储层 计算层 sm_stream storm Hive Hive NameService mr job Step1:总结 存储是最核心的问题 以存储为中心,能简化流程设计 Step2:背景 业务需求 日志挖掘 推荐算法 数据融合 深度学习 架构需求 对计算能力提出巨大挑战 Step2:多平台共存 不同业务对平台需求不同 日志挖掘:mr_job,Hive 推荐算法:spark,MPI 数据融合:Titan 深度学习:PS、Caffe、TensorFlow Step2:多平台挑战 流程调度 解决跨平台流程调度 (sm_scheduler) 数据共通 数据打通 平台复杂性 Step2:跨平台调度 (sm_scheduler) fuxi/mr/hive spark mpi 流程 sm_scheduler ps 从调度层面解决跨平台问题 Step2:算法优化 算法优化的一些思路 不同规模应对不同实现 通用化vs定制化 应用优化 先于 算法优化 一些具体的方法 流式化实现 拼硬件(内存、GPU) 语言层面 (c++/java、库) 预训练、数据优化 除了平台本身,算法优化也需要大量投入。 Step2:整体架构 yarn/fuxi hdfs/pangu sm_db hbase 图数据库 基础设施 存储层 计算层 sm_stream MPI Spark ParameterServer Hive 调度管理 sm_scheduler NameService Step2:总结 平台复杂度随着业务发展而增加 统一架构

文档评论(0)

1亿VIP精品文档

相关文档