京东大数据基础架构和实践
王彦明
京东大数据平台部
关于我关于我
王彦明
大数据平台-数据架构部
目录目录
大数据
京东大数据平台
我们技术突破我们技术突破
JDWJmartJDWJmart
JDMP数据挖掘平台
展望
大数据大数据
少说些漂亮话,多做些日常平凡的事情
京东大数据平台
我们的技术突破我们的技术突破
• 分布式系统技术突破
– 稳定性稳定性、性能性能、HAHA、故障恢复故障恢复、多集群多集群、运维和管理运维和管理
• 多用户共用平台
– 数据安全数据安全、隐私保护隐私保护
• 数据任务运行监控
– 每每 日数数万个数据任务个数据任务、核心任务核心任务及时性时性
• 挖掘数据价值
– 数据量大、迭代效率
• 数据实时化
– 关系型数据、AD HOC、实时计算
• 离线、实时平台合并
– Hadoop、Spark、Storm
JDW发展历程
Spark
Hadoop
MySQL
OOraclle
MS SQL
JDWJDW架构架构‐概述概述
调度系统调度系统
数据质量数据质量 知识管理知识管理
监控系统 平台
Jmart
JDW
统一权限 数据集成
管理平台 开发平台
京东
分析师
JDWJDW
EDW的核心数据架构分为四层:缓冲数据层、基础数据层、通用数据层、聚合数据层 ,
其次是临时层和维度层。其示意图如下:
JDW FDM 存储方案优化
在线交易系统、商品中心、用户中心等出于效率的考虑,不会长期保存大量历史数
据,而JDW作为企业数据分析及挖掘的基础设施,天生具有保存历史数据的职责,非但
如此,如何快速、高效的获取历史上任意一天的快照数据也成为设计历史数据存放方式
时的重要考量。通过比较,记录数据的生命周期 ;能快速还原任意天的历史快照 ,极大
的的节省节省了存储存储
2014-01-01 2014-01-02
快照的还原
keykey A1A1 A2A2 A3A3 key A1 A2 A3
S
原创力文档

文档评论(0)