- 17
- 0
- 约3.7千字
- 约 43页
- 2018-02-03 发布于浙江
- 举报
ArchSummit(黄锐华 v2)
神马搜索大数据基础架构
黄锐华/阿里巴巴(神马搜索)
内容提纲
神马业务发展
神马大数据架构发展的三个阶段
未来的发展思路
一些心得
神马业务发展
关于神马搜索
神马业务现状
神马业务发展的3个阶段
知识化搜索
抓取、索引、排序
资源覆盖
纵深雕琢
横向铺量
行业深度
信息直达
智能化
个性化
业务发展对架构的挑战
计算模型 算法模型
架构的作用
基础保障
保障流程稳定
推进业务发展
助推业务
丰富架构
让数据处理更简单
更多可能
计算性能提升促使DL大规模应用
神马大数据架构发展的三个阶段
架构发展
step3,功能和平台的标准化
代表:通用算法、通用调度、流程语言
step2,满足复杂的数据挖掘和处理需求。
业务代表:日志挖掘、数据融合、推荐模型
step1,满足大规模数据存储和(时效性)计算。
业务代表:抓取、索引、排序
为应对业务发展,神马大数据架构发展共经历3个阶段
业务需求
网页存储、索引流程
垂直业务
时效性数据
架构需求
大规模存储
大规模计算 (m-r)
时效性
大量流程
Step1:背景
Step1:常规解决思路
时效性流程
批量流程
数据源
kafka
storm
hbase
hive
mr job
HiveQL
数据源
Step1:需求难点
缺乏高效存储服务
数据量大
高时效性
扫表性能
稳定性
Hbase无法满足
超大规模网页数据
扫表性能
内存和服务稳定
Hive无法满足
随机读写
Step1:存储解决方案(sm_db)
NoSQL
关系型
软件
服务
sm_db
Azure Table
HBase
CouchDB
RDS/DRDS
OceanBase
MySQL/TDDL
Cassandra
MongoDB
键值
文档
Oracle/RAC
AWS RDS
Azure
DocumentDB
AWS DynamoDB
自建分布式结构化存储系统
Step1: sm_db设计
实现简化
固定分区
固定key-range
Buffer替换Cache
功能增强
开放Merge、Clean策略
snapshot机制
多partition
Step1: sm_db结构
RedoLog
fileslab1
pangu
(hdfs)
MemSlab
dump
Snapshot
MemSlab
Buffer
fileslab2
fileslab3
fileslab1
Merge
write client
read client
Partition内部结构
Step1: sm_db扫表
MemSlab
FileSlab1
FileSlab2
Snapshot1
ScanJob1
FileSlab4
Snapshot2
ScanJob2
FileSlab3
dump
make snapshot
user job
make snapshot
merge file
user job
通过Snapshot机制,直接扫描文件本身,并保证不同扫描任务并行。
Step1:sm_db规模
数据量:几十PB
每天写入:千亿级别
每秒读取:百万级别
Step1:整体架构
yarn/fuxi
hdfs/pangu
sm_db
hbase
基础设施
存储层
计算层
sm_stream
storm
Hive
Hive
NameService
mr job
Step1:总结
存储是最核心的问题
以存储为中心,能简化流程设计
Step2:背景
业务需求
日志挖掘
推荐算法
数据融合
深度学习
架构需求
对计算能力提出巨大挑战
Step2:多平台共存
不同业务对平台需求不同
日志挖掘:mr_job,Hive
推荐算法:spark,MPI
数据融合:Titan
深度学习:PS、Caffe、TensorFlow
Step2:多平台挑战
流程调度
解决跨平台流程调度 (sm_scheduler)
数据共通
数据打通
平台复杂性
Step2:跨平台调度 (sm_scheduler)
fuxi/mr/hive
spark
mpi
流程
sm_scheduler
ps
从调度层面解决跨平台问题
Step2:算法优化
算法优化的一些思路
不同规模应对不同实现
通用化vs定制化
应用优化 先于 算法优化
一些具体的方法
流式化实现
拼硬件(内存、GPU)
语言层面 (c++/java、库)
预训练、数据优化
除了平台本身,算法优化也需要大量投入。
Step2:整体架构
yarn/fuxi
hdfs/pangu
sm_db
hbase
图数据库
基础设施
存储层
计算层
sm_stream
MPI
Spark
ParameterServer
Hive
调度管理
sm_scheduler
NameService
Step2:总结
平台复杂度随着业务发展而增加
统一架构
您可能关注的文档
- APS-190-27-001方向舵PCU的更换.docx
- APS-190-07-001 E90 飞机顶升工作.docx
- APS-190-27-003升降舵PCU的更换.docx
- APS-190-49-001 E190 APU点火电嘴的更换.docx
- APS-190-29-001 E190 EDP的更换.docx
- APS-190-36-007更换-NAPRSOV活门.doc
- APS-737-21-003B737NG更换-外排活门.docx
- APS-190-72-002发动机滑油系统滑油的更换.docx
- APS-190-72-001发动机风扇叶片的润滑.docx
- APS-737-23-001B737NG更换ISFD.docx
- 白河油区吴50井区油藏评价与高效开发策略研究.docx
- 人民币汇率之变:出口商品价格传递效应的深度剖析.docx
- 门座起重机柔性变幅安全系统的深度剖析与优化策略.docx
- 琼东南盆地南部深水水道沉积体系剖析:特征、演化及油气意义.docx
- 四阶抛物方程间断时空有限元方法:理论、实践与优化.docx
- 江南农村土地产权流转的困境与突破:基于常州市武进区的深度剖析.docx
- 穿孔幕墙通风附加阻力特性的深度剖析与量化研究.docx
- “一带一路”背景下太极集团在印度尼西亚的市场策略研究.docx
- 双亲性无规共聚物的合成路径、性能表征与多元应用探索.docx
- 从历史到文学:刘备形象的多维演变与叙事剖析.docx
原创力文档

文档评论(0)