ASBJ2014实时数据平台技术实践(v4).pdf

ArchSummit 2014全球架构师峰会 目录目录  京东大数据京东大数据平台介绍台介绍  实时数据平台背景  实时数据实时数据平台解决方案台解决方案  关键环节详解  关关于平台产品化平台产品化 京东大数据平台定位京东大数据平台定位 • 支撑全集团数据业务 • 全集团数据集中 商城 • 自助式服务平台模式自助式服务平台模式 金融金融 拍拍拍拍 大数据 平台 无线 易迅 京东大数据平台发展历程京东大数据平台发展历程技术选型技术选型 2011年之前 2011~2012 2012~至今 京东大数据平台发展历程京东大数据平台发展历程技术技术选型选型 • 传统商业数据仓库解决方案传统商业数据仓库解决方案  弊端  高复杂度计算任务并发性差  海量数据处理能力不足海量数据处理能力不足  存储能力有限  扩展性差  成本高成本高  后期遇到的问题  越来越多的ETL任务需要12点后才能完成  任务排队现象严重  基于流量等大数据量的批量计算和复杂推荐类算法基本无法应付  存储达到上限,需不断转移历史数据 京东大数据平台发展历程京东大数据平台发展历程工具工具 脚本 配置文件 脚本+配置文件 分散工具集分散工具集 站式消费+多屏可用 一站式消费+多屏可用 京东大数据平台架构京东大数据平台架构 • 自助式服务平台 • 支持离线模式\流式模式 • 开源组件开源组件++自主研发自主研发 • 通过产品化发挥最大价值 • 让用户专注于开发让用户专注于开发 实时数据平台实时数据平台背景背景 • 运营营场景  实时感知业务运行情况,实现实时决策支持,比如调整营销策略、库房排班等 • 营销场景营销场景 – 根据用户位置、实时浏览轨迹、商品价格变化等实现精准推荐、广告 – Top排行榜:销量排行、热度排行等 • 优化离线数据仓库数据抽取环节 – 传统“T+1”模式的数据仓库每天凌晨第一件事就是增量或全量抽取业务数据 随着数据抽取任务的随着数据抽取任务的不断增长断增长 ,数据抽取时间成本数据抽取时间成本不断增长断增长 ,离线计算启动时间离线计算启动时间 不 断被推迟 实时数据平台要解决的几个问题实时数据平台要解决的几个问题 • 实时数据采集数怎么来 – 数据要全 – 延迟要低延迟要低 • 实时数据存储数放在哪 – 数据存储统数据存储统一 – 方便使用、高吞吐量 • 实时数据计算数怎么算 – 及时性 – 支持高复杂度场景 实时数据平台解决方案实时数据平台解决方案 • 实时数据采集 • 实时数据总线 • 实时数据分发实时数据分发 • 实时数据流式处理 • 准实时数据批量处理准实时数据批量处理 • 高可用 •

文档评论(0)

1亿VIP精品文档

相关文档