2014数据仓库概述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。 数据仓库的组成 数据仓库数据库:是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。 数据抽取工具:把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。 元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表; 元数据为访问数据仓库提供了一个信息目录(information ? directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。 访问工具:为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。 数据集市(Data ? Marts):为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject ? area)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。 数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。 信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。 建立数据仓库 为什么要建立数据仓库: 商业上:利用所有可能的数据快速而正确的做出决策;用户是业务领域的专家,而不是计算机专业人员;企业数据每18个月翻一番,需要有一种有效的访问这些数据的方法;在商业智能和有利用效企业数据方面,竞争的加剧。 技术上:计算机的计算能力越来越便宜(MIPS价格的下跌);存储介质价格的下跌; ? ? 网络带宽的增长,网络的传输能力越来越便宜;整个企业的计算机环境越来越复杂,各个时代各个不同厂家的应用系统同时存在; ? ? ? ? ? ? 新的应用要访问其他应用的数据。 实施数据仓库应注意的问题: 商业上(考虑投资回报率) ? ? ? ? ? ? 实施的步骤:从上到下还是从下到上 ? ? ? ? ? ? 人力资源的问题:培训还是雇佣 设计上(think ? big, ? but ? start ? small) ? ? ? ? ? ? 可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。 ? ? ? ? ? ? 数据仓库相对于OLTP来说,更加是业务驱动(business-driven)的而不是技术驱动的(IT-driven),需要和最终用户不断的交流,建立的过程可能永远不会结束。 ? ? ? ? ? ? 要点: 1) ? ? ? ? ? ? ? ? 数据仓库中应该包含细节数据(清理过的)。 2) ? ? ? ? ? ? ? ? 用户能看到的任何数据都应该在元数据中有对应的描述。 3) ? ? ? ? ? ? ? ? 考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器总如何分配,按主题、地理位置、还是时间?这些策略对整个数据仓库的性能影响很大。 4) ? ? ? ? ? ? ? ? 当选用数据仓

文档评论(0)

UGvSesardh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档