淘宝数据仓库核心架构设计的历史与发展.pptVIP

淘宝数据仓库核心架构设计的历史与发展.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
淘宝数据仓库核心架构设计的历史与发展ppt整理

哪些团队在使用数据? 联系我们 数据平台与产品 Blog: / 百科: 邮件列表:taobao-dw@ 薛奎 微博:薛奎_xuekui mail:xuekui@ 旺旺:薛奎 薛奎 2011-08-09 主题 1/数据仓库概述 数据仓库基本特征 数据仓库基本架构 2/数据仓库建设 架构方式 容量平台 模型设计 3/元数据(MetaData)建设 元数据 元数据在淘宝的应用 4/ETL处理 ETL概要说明 ETL主要做什么 我们目前的ETL调度工具 ETL调度发展。 5/数据仓库价值挖掘与发现 数据产品 数据团队 6/联系我们 数据仓库特征 面向主题 集成的 相对稳定 反映历史变化 数据仓库基本架构 归档区 近线区 整合区 交互区 结构化数据源 非结构化数据源 ETL AD-HOC 数据分析 数据挖掘 数据产品 …… 元数据(Meta Data) 数据仓库 源数据 数据应用 主题 1/数据仓库概述 数据仓库基本特征 数据仓库基本架构 2/数据仓库建设 架构方式 容量平台 模型设计 3/元数据(MetaData)建设 元数据 元数据在淘宝的应用 4/ETL处理 ETL概要说明 ETL主要做什么 我们目前的ETL调度工具 ETL调度发展。 5/数据仓库价值挖掘与发现 数据产品 数据团队 6/联系我们 数据仓库架构方式   集线器架构 总线架构 总体方法 从上向下 从下向上 体系结构 先建立全企业的原子级数据仓库,然后在此基础上建立部门级应用 按照业务过程建立数据集市,通过数据总线和一致性维度达到企业级的一致性 复杂度 非常复杂 较为简单 建模方法 面向主题,数据驱动 面向过程,应用驱动 建模工具 传统的ER模型 维度模型 易访问性 低 高 数据集成度 企业级的数据集成 独立业务领域内的数据集成 数据变化度 源系统数据发生了较大的变化 源系统数据相对稳定 交付时间 需要很长的启动时间 可以快速部署应用 部署成本 较高的启动成本,较低的后续项目开发成本 较低的启动成本,每个后续项目的成本接近 容量平台规划 容量规划元素:计算,存储,网络 容量规划的不确定性因素:使用人数、数据量、数据需求量 容量平台的选择考虑因素:线性扩展、成本、稳定性、性能、运维…… 淘宝容量平台发展 传统数据仓库平台架构 DB 磁盘 Client Client DB SAN/共享磁盘 DB DB DB Client DB 磁盘 DB 磁盘 DB 磁盘 DB 磁盘 SMP 共享磁盘 完全不工享 代表:小型机 代表:oracel RAC 代表:Greenplum,Teradata (注:浅蓝色部分表示共享) 云计算平台设计理念 硬件错误是常态而不是异常 流式数据访问 大规模数据集 简单的一致性模型(写一次,不限读次数) 移动计算比移动数据更划算 异构软硬件平台间的可移植性 (注:后续都以HDFS来说明云计算平台) HDFS平台架构 Hdfs设计的一些要点 业务处理过程模型 数据模型 (注:后面提到的数据模型为物理模型) 维度的处理 无变化维:如人的性别,身份证号 直接插入 缓慢变化维:如人的婚姻状态 覆盖 全历史记录保留 记录最新及上一次历史 剧烈变化维:如人的工作经历 维度属性处理 建模面临的挑战 建模中需要综合考虑的点 效率与数据粒度的矛盾 应用需求覆盖率 模型的可扩展性 生成模型的成本 是否考虑不同数据用户的需求? 终极解决方案--自动化建模 数据库模型 优化模型建议 主题 1/数据仓库概述 数据仓库基本特征 数据仓库基本架构 2/数据仓库建设 架构方式 容量平台 模型设计 3/元数据(MetaData)建设 元数据 元数据在淘宝的应用 4/ETL处理 ETL概要说明 ETL主要做什么 我们目前的ETL调度工具 ETL调度发展。 5/数据仓库价值挖掘与发现 数据产品 数据团队 6/联系我们 元数据 元数据在淘宝中的应用 主题 1/数据仓库概述 数据仓库基本特征 数据仓库基本架构 2/数据仓库建设 架构方式 容量平台 模型设计 3/元数据(MetaData)建设 元数据 元数据在淘宝的应用 4/ETL处理 ETL概要说明 ETL主要做什么 我们目前的ETL调度工具 ETL调度发展。 5/数据仓库价值挖掘与发现 数据产品 数据团队 6/联系我们 ETL概要说明 我们80%的资源包括人力,计算资源消耗在ETL上; 我们数据平台架构组开发工具,平台基本上是ETL平台,工具; ETL之于数据仓库有如循环系统于人一样重要,数据平台的健康,新陈代谢都是归功于ETL; ETL任务的好坏直接决定数据仓库的数据质量,数据产出时间以及很大程度上是否能发挥数据的价值; ETL主要做什么? 我们目前有哪些ETL工具平台 ETL调度发展 主题 1/数据仓库概述 数据仓库基本特征 数据

文档评论(0)

zyzsaa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档