google大数据01.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
google大数据01

元数据为核心的数据仓库解决方案 前言 数据仓库热浪袭人。众多的厂商、众多的产品充斥市场,对用户来说,是好事也是坏事。用户可以有更多的选择,但同时又有更多的迷惑。Google公司是全球最大的数据仓库和业务智能方案提供商之一,在提供丰富有力的产品同时,我们更强调建立数据的方法和过程。Google的 DecisionBase:基于元数据的数据仓库解决方案,它集成了GOOGLE Repository和相关的产品,为数据仓库的成功建立提供方法和过程上的帮助。 什么是元数据 现在我们并不缺乏数据,各种不同的应用系统每天产生大量的原始数据。我们面对的是把重要的事实从其它数据中分离出来的问题。有许多的类比可以用来说明这种情形,有人说这象是企图从一个消火栓取一杯水,还有人说象是在一片沙滩上找到一粒特定的砂子。总之,使用数据求得业务答案的能力仍然是在业务工作中盈利和取得成功的关键。 我们知道为制定好的决策,我们需要好的数据。作为好的业务实践已被广泛接受的处理过程说明如下: 第一, 获得质量好的原始数据 第二, 合并集成数据形成有用的信息 然后分析信息作出高质量的决策。 但我们知道,要把数据作为企业资产的价值,必须掌握数据所有重要的属性。知道库存水平一定时间内在两个值之间徘徊,还不够,必须还要知道库存水平的定义;知道一定时间内法国葡萄酒的价值提高还不够,还必须了解法国法郎对美元的有关价值发生了什么变化,以及是否在外汇交易中已经为浮动的调整该价值。 数据必须完整精确,如果一个特定的数据元素有多个来源,那么在数据仓库中使用哪个呢?为什么?影响我们查看数据方式的业务规则是什么?如果我们已经计算某些数据元素,比如利润率,那么使用哪些方程和公式得到这些结果的?只有当这一切都被了解、掌握、应用、数据才能够被充分使用,我们才能够开始可靠地从最终引导我们制定高质量决策的数据中创建信息。 这就是元数据(Meta Data):关于数据的数据。Meta在希腊语意思是位于后面。我们讨论位于数据之后的数据,说明其来源,意义、衍生等等。什么是毛销售额?一是法郎还是美元。季度还是年度,从哪个系统产生,什么时候提取等等。元数据包括范围从真实世界的概念性总论到一个特定数据管理系统的具体的物理存储。 没有随时可用的高质量的元数据,数据源就没有使用价值,它的主要目的是为数据源提供一个完全综合的向导。 什么是元数据管理 元数据管理是我们用以了解我们有什么信息,信息在什么地方,以及整个企业组织如何利用信息的管理方式。更简单明了说,是我们如何有效地按时管理信息管理环境。虽然企业多多少少承认元数据的重要性,但没有几个企业组织知道其中的原因和如何对它实施管理。Google的信息管理咨询专家能够助一臂之力。Google的咨询专家在信息管理环境上集中解决元数据管理功能的两个关键构件:最终用户的路由图和信息管理布线图。 - 最终用户路由图 在访问方便的格式里没有足够的元数据,数据仓库的最终用户就不能有效开发利用数据仓库,创建查询程序和正确说明解释他们找到的数据。 最终用户必须了解在数据仓库里有什么数据,数据来源何处。通过给他们提供可在数据仓库使用的高水平的源域和主题的数据库存清单,最终用户可以深入分析单个元素的定义,业务内容和有效价值以及使用规则。 - 信息管理布线图 数据仓库处理十分复杂--涉及到几个数据源,要求制定几个提取和转换数据的方案程序和产生多个时间相关的作业流。通过有效的元数据管理使该处理工作文件化和得到交流至关重要。数据仓库的开发者使用该元数据促进了将来的数据仓库开发,并且根据不断变化的要求管理数据仓库处理过程。 使用元数据,数据仓库开发者可以确认哪一个数据结构,数据集市,转换程序等需要根据后端系统或数据仓库本身的变化得到调整。 缺乏元数据管理的数据仓库危机四伏 实施数据仓库过程中充满了挑战。建立一个企业级信息系统来满足明天的决策支持但同时又不牺牲今天的竞争优势,对任何企业来说都不容易。在为数据仓库选择一些“必备之物”时,企业必须经常首先满足其它重要但从长远来看不利的需求 。例如,短时间内构造一个个独立的数据集市以满足各业务部门强烈要求的需求的同时,可能会防碍今后企业全面的数据仓库实施。所以我们要寻求某种方法来解决以下问题: “烟囱式”数据集市 结构系统的束缚可能造成数据仓库中的数据不一致或产生“烟囱式”的数据集市。烟囱式数据集市相互独立构造,并且由于系统结构不兼容和业务规则使用存在差异,因此不能正常地与企业中其他数据仓库和数据集市进行交换和共享。这样,因为对数据仓库产生的信息没有信心。用户可能会对系统失去信任,从而最终停止使用它。这意味着我们所有的投资和心血付之东流。 无力适应需求的变化 在今天的业务事务中,唯一不变的是变化。业务条件会变,企业组织会变,业务规则会变,业务数

文档评论(0)

didala + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档