- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
京东大数据基础架构和实践
王彦明
京东大数据平台部
关于我
关于我
王彦明
大数据平台-数据架构部
目录
大数据
京东大数据平台
我们技术突破
JDWJmart
JDMP数据挖掘平台
展望
大数据
大数据
少说些漂亮话,多做些日常平凡的事情
京东大数据平台
京东大数据平台
我们的技术突破
我们的技术突破
分布式系统技术突破
稳定性、性能、HA、故障恢复、多集群、运维和管理
多用户共用平台
数据安全、隐私保护
数据任务运行监控
每日数万个数据任务、核心任务及时性
挖掘数据价值
数据量大、迭代效率
数据实时化
关系型数据、ADHOC、实时计算
离线、实时平台合并
Hadoop、Spark、Storm
JDW
JDW发展历程
MySQL
Hadoop
Spark
Oracle
MSSQL
JDW
JDW架构-概述
调度系统
调度系统
数据质量
监控系统
Jmart
知识管理
平台
JDW
统一权限
管理平台
数据集成
开发平台
京东
分析师
JDW
JDW
EDW的核心数据架构分为四层:缓冲数据层、基础数据层、通用数据层、聚合数据层,其次是临时层和维度层。其示意图如下:
JDWFDM存储方案优化
在线交易系统、商品中心、用户中心等出于效率的考虑,不会长期保存大量历史数据,而JDW作为企业数据分析及挖掘的基础设施,天生具有保存历史数据的职责,非但如此,如何快速、高效的获取历史上任意一天的快照数据也成为设计历史数据存放方式时的重要考量。通过比较,记录数据的生命周期;能快速还原任意天的历史快照,极大的节省了存储
快照的还原
SELECT*FROMt_chainWHEREP_DATE=start_date
ANDP_DATEend_date
空间节省率
Base:基数(十亿级) N:天数C:每日增量(百万级)
M:每日变化量(百万级)
2014-01-01 2014-01-02
keyA1A2
key
A1
A2
A3
1
A
A
A
2
B
B
B
3
C
C
C
key
A1
A2
A3
1
A
A
AA
2
B
B
B
3
C
C
C
4
D
D
D
key
A1
A2
A3
start_date
end_date
1
A
A
A
2014/1/1
2014/1/2
1
A
A
AA
2014/1/2
4712/12/31
2
B
B
B
2014/1/1
4712/12/31
3
C
C
C
2014/1/1
4712/12/31
4
D
D
D
2014/1/2
4712/12/31
JDWFDM存储方案优化
实际的拉链表的设计更加精巧,充分考虑了京东业务的各种情况。譬如订单表,考虑了其结转特点,充分利用了数据分拣技术,
如下是订单表的多分区设计,
dp=HISTORY/dt=2014-06-22/end_date=4712-12-31
......
dp=HISTORY/dt=2014-06-23/end_date=4712-12-31dp=HISTORY/dt=2014-06-24/end_date=4712-12-31
......
dp=EXPIRED/dt=2013-10-11/end_date=2013-10-11dp=EXPIRED/dt=2013-10-12/end_date=2013-10-12dp=EXPIRED/dt=2013-10-13/end_date=2013-10-13dp=EXPIRED/dt=2013-10-14/end_date=2013-10-14
......
dp=ACTIVE/dt=4712-12-31/end_date=4712-12-31
之前,采取快照累积的方式,订单表加工完成甚至到下午1点,利用该方法后,一般在凌晨3左右点完成。
而且在后续的查询上,能充分利用分区裁剪特性,能迅速的返回数据
Jmart
Jmart概述
京东数据集市是基于JDW构建的面向条线的数据生产环境,为各条线提供数据应用服务,包含广告、推荐、搜索、财务、营销、运营、BDA、移动、拍拍等数十个部门,上千用户提供数据服务。
数据集市
数据集市
广告集市推荐集市搜索
广告集市
推荐集市
搜索集市
营销集市
……
JDMP-
JDMP-大数据挖掘中的“痛点”
抽样
数据量大
迭代 门槛
机器学习算法
JDMP-
JDMP-解决方案
抽样
分布式计算
迭代 门槛
内存计算 通用流程
抽象与简化
JDMP-
JDMP-支持的算法
推荐ALS-MF,FP-Growth,Item/User-CF,RBM分类LR,NB,SVM,gbdt,soft-max回归linear,ridge,lasso聚类
推荐
ALS-MF,FP-Growth,Item/User-CF,RBM
分类
文档评论(0)