- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目标 ? 1000PB ? 10 亿维特征训练 ? 100 维条件查询 ? 流式 ? 触发式 海量 高维、多维 实时 更大、更复杂、更快 ! 数据智能 分布式 存储与计算 大规模人工 辅劣标注系统 人计算 向量引擎 Machine Learning 算法 Web Contents 流式处理 Logs PubSub 推荐系统 智能交通 Apps 自劢评估 商业智能 决策辅劣 关于京东 营销 管理 供应商 管理 仓储 管理 财务 系统 客户 数据 网站 前台 关于京东 京东拥有覆盖企业全部价值链的稳定系统,通过持续 台,全面提升用户体验 。 配送 管理 大规模数据处理更加容易 ETL/ 企业数据仓库 ( Hive/Pig/MR ) 数据挖掘 / 建模 ( R 、 Mahout ) 搜索和推荐 日志存储 … ? ? ? ? ? “Next Click” 运营智能 风险控制 互动分析 ? 一些场景需要进一步的考量 MapReduce 批量处理 = 延迟较长 无法满足用户的实时需求 调度开销较大 批处理与分析 近实时分析 实时流处理 实时性 离线 准实时 / 实时 实时 处理时间 分钟到小时 毫秒到秒 持续不断 数据量 TB-PB GB-TB 持续 编程模型 MapReduce Queries DAG 用户 分析师 / 开发者 分析师 / 开发者 开发者 成本 中 高 高 应用 ETL/ 数据挖掘 / 预处理 ? 数据决策分析 /? ? 大数据包括三部分 服务 模型 性能 大数据实时处理的思考 ? 模型 – 海量数据 ? 数据量大 ? 并发数高 – 多个数据源整合 – 预定义好的数据模型 ? 去规格化 – 数据任务依赖关系简单 – 推和拉的问题 ? 拉比推好 大数据实时处理的思考 ? 性能 – 高并发需求 – 大容量需求 ? GB – TB 级后台数据处理吞吐 – 高速度需求 ? 从数据产生到处理完成结果延迟要求到 秒级 ? 计算需要在短时间内完成 – 批处理预算 – 硬件支持 ? 内存、 CPU 、网络 – 容错 – 水平扩展 大数据实时处理的思考 – – – – 关联获取价值,维度按需定制 互动分析、报表等完成价值交付 与其他在线生产系统进行数据对接(数据反哺) 计算即服务 大数据实时处理的思考 ? 服务 生产数据库 企业数据仓库 大数据实时处理架构 财务数据集市 采销数据集市 罗盘数据集市 分析挖掘 数据集 数据 缓冲区 企业消息总线 流式计算集群 实时数据 同步 模型 日志 系统 高速存取集群 在线实时计算集群 持久 化 PUSH PULL/PUSH 订阅 ELT ELT 高速存取集群 ETL 报表应用 分析应用 推荐应用 ... 数 据 推 送 中 心 近实时分析集群 近实时计算 实时计算 在线服务 离线计算 应用 分布式消息系统 缓存集群 – – – – 日志(用户行为、 ? ) 批量同步 消息队列 ? ? 开源技术 – – – – Flume Scribe Kafka ? 大数据实时处理技术 ? 数据传输 ? Apache 项目: / ? 一个分布式的发布 / 订阅消息系统 ?
文档评论(0)