淘宝数据应用开发平台iData解读.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
淘宝数据应用开发平台 泽远@数据平台与产品 W/apeks 大纲 每日新增数据20T 累积数据14P 2000+服务器的云计算平台 每天处理100,000+作业任务,包括100+新增作业任务 每天处理1P+数据,包括0.5%新增数据 总体数据规模 数据分析师 ETL开发工程师 模型架构师 运营 程序员 数据化运营 商业决策 产品设计 理解业务 文档化业务和需求 BI产品设计 PD 业务分析师/数据PD 卖家 买家 数据产品PD 店铺经营 购买决策 行业分析 分析、挖掘用户需求 数据产品设计 数据平台 ETL作业设计, 实施,维护, 优化 数据模型建模 架构师 技术框架设计 平台与工具的实现 数据产品开发团队 商业智能团队 数据开发团队 内部用户 外部用户 基础开发 开发架构 … … 使用、建设 建设 如何使用数据——传统数据仓库模式 数据分析师 ETL开发工程师 模型架构师 运营 程序员 数据化运营 商业决策 产品设计 理解业务 文档化业务和需求 BI产品设计 PD 业务分析师/数据PD 卖家 买家 数据产品PD 店铺经营 购买决策 行业分析 分析、挖掘用户需求 数据产品设计 培训,咨询,解决方案 架构师 技术框架设计 平台与工具的实现 数据产品开发团队 商业智能团队 数据开发团队 内部用户 外部用户 基础开发 开发架构 … … 使用、建设 建设 服务 数据开放之路——人人都是数据专家 ISV 数据应用开发平台——数据工场 Data Integration DB sync TT Hive Hadoop Map Reduce Hadoop HDFS Datax 报表需求(淘数据) Hbase 即席查询(adhoc) 数据分析 数据挖掘 数据产品 数据平台——产品架构 实时计算 底层平台 数据开发平台 数据应用 Gateway Servers Oracle 备库 MySQL 备库 日志系统 Log Server Hadoop Gateway Servers DBSync 爬虫数据 Map Reduce Java Jobs Streaming Jobs Hive Jobs TimeTunnel DataX 数据流向 主站服务(淘宝,B2B,广告,搜索,BOSS) Hbase Hbase Mysql Oracle DataX Myfox Loader LzLoader Other System 数据产品 Adhoc 报表(淘数据,Business Preview) 回流主站应用 流式计算 其它 数据开发平台——数据流向 实时计算平台 OLAP server 愿景和目标 降低数据开发门槛,人人都可以方便加工和获取数据 提升数据项目开发效率 有效控制计算存储成本 沉淀最佳实践,打造数据应用开发的标准 用户分类 非技术背景用户 技术背景用户 需求分类 ADHOC需求? 类Excel查询工具 图形化拖拽 HIVE IDE 数据项目/数据产品? 数据应用开发平台 数据应用开发平台 数据字典, 知识库, 问答 图形化辅助建模工具, 自动建模 数据集成 (DataX,DBSync,TT3) IDE(web,RCP),代码优化器 支持HIVE, map-reduce,mahout 工作流编辑 准入测试,持续集成, 性能测试 调度引擎 分析工具集 指标系统(Dashboard) 监控告警,数据质量, 生命和周期 数据集成,OLAP,图标引擎, 可视化引擎 需求分析 运行时监控 业务建模 数据集成 线上部署 管理生命周期 数据开发挖掘 报表配置 数据质量监控 结果数据导出 数据可视化配置 测试 运行 成本优化 计算成本 元数据center 权限控制 审计 日志 搜索引擎 缓存 … 技术服务 基础服务 项目实施流程 数据工场产品架构 数据工场关键服务——知识库(元数据管理) 其它服务 生成 捕获/解析/处理/归一化 元数据应用 归一化存储 Hadoop MR Hadoop HDFS HIVE 调度系统 代码 J/HI/PY RAC MySQL Sphinx Redis 需求系统 收集器 收集器 收集器 收集器 解析器 收集器 … 数据字典 指标库 知识库 数据质量监控 自动建模/模型优化 SQL自动改写 Metadata Service … … 生命周期 血缘分析影响分析 SQL优化 监控告警 … BUS 数据工场关键服务——知识库(元数据) 系统优化 宏观数据 微观数据 任务依赖关系/data pipeline 天网调度效率 Gateway并行度 Jobtracker调度效率 关键路径分析 运行趋势分析 系统关键路径点 数据源监控 末端监控 比较 重点节点 运行时间 等待时间 同步时间 算法优化 集群计算效率 系统

文档评论(0)

bbnnmm885599 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档