SAS数据仓库方法论.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS数据仓库方法论 目 录 A. 快速建库方法论浏览 1.什么是数据仓库 2.建立数据仓库的业务理由 3.建立数据仓库的技术理由 4.数据仓库的技术特征 5.确认业务需要和数据仓库的目标 6.关键成功因素 B. SAS快速建立数据仓库方法论的细节 1.业务驱动 2.收集需求的研讨会 3.快速应用开发 (RAD) C.方法论的框架 -------------------------------------------------------------------------------- A. 快速建库方法论浏览 一个企业在开发和实施数据仓库时,使用一个高效和经验证的方法论是关键的,这一点已是十分清楚的了。考虑到这一点,多年来SAS研究、发展和改进了经验证的实施数据仓库的方法论,我们称之为快速建库方法论。本文件的这一节将描述这个方法论。 什么是数据仓库? 一个数据仓库通常是一个分散的数据存储,在其中信息是存为这样的一种形式,它适合于业务智能化和决策支持系统。数据可能是以不同形式存储的,它并不影响OLTP系统的运作。数据仓库的建立是用一种循环的逐步完善的过程而不是一步完善的。数据仓库通常是与解决企业不断改变的组织问题的全过程有关。 数据仓库通常是围绕主题建立的。主题就是企业感兴趣的论题,比如部门、活动和操作结果。数据仓库的结构是由数据仓库应满足的应用决定的。快速提交信息是成功实施数据仓库的关键。由于这一点,就引入了象数据集市和信息集市这些概念。数据集市是数据仓库的一个子集,它通常更为概括,以满足对关心数据的查询有比数据仓库本身更快的速度。信息集市存储可用视窗器(viewer)显示的预处理的信息。 在信息集市中常包含以下几类信息: 报告输出(打印的文本、图形等) 多媒体介质 (录象和录音)内容的记录 电子表单 2.建立数据仓库的业务理由 数据仓库为管理者和业务用户提供真正决策支持的基础。企业为这些业务用户存储了多年的信息,但是数据仓库提供专为他们设计的有构架的信息。数据仓库实施的最初阶段往往要解决现成的业务问题(即较为被动的),而以后的实施常是更为主动的。数据仓库的一个强项是它支持对数据的随时需要的查询和进行未计划的数据探索的需要。就是说,数据仓库给业务用户以不同方法分析数据的能力和自由度,而不受预先设定的一组报告的限制。 建立数据仓库的技术理由 建立数据仓库最共同的技术理由是企业现用的信息技术结构不能满意地满足业务需要。过去,信息技术集中于运作系统,它保证业务过程运行所必须的任务的自动化。但是,运作系统一般不能很好地满足决策支持的需要。一个运作系统典型的有多个事务处理(transaction)的应用构成,每个应用使部门的一个过程和功能自动化。在运作系统中,每个事务和每一分钟的业务细节都记录在与事务应用关联的数据库中。 事务系统的设计要考虑将部门运作需要的细节信息有效地进入系统。有效性的要求导致应用开发者实现高度规范的数据和在存档发生之前就必须决定作为应用的一部分有多少数据可存储。虽然运作系统对日常业务活的支持是非常有效的,但他们对于运用常规的软件技术支持报表制作、决策和行政信息系统并不是很好的。他们的侧重点是在数据的存储,很少提供访问数据和将数据变为有用决策信息的工具。 运作系统和数据仓库是完全不同的。内容是不同的,结构是不同的,硬件和软件的需求是不同的,管理是不同的和用户是不同的。数据仓库的存储是设计得能提供决策支持信息的。它由业务应用数据来构建,但数据要先经过提取,再进行过滤、校验并组织到反映单位需要的主题中去。 数据仓库的数据是经过一段时间的收集,并用于比较、趋势分析和预测的。 若用运作系统存储的数据做决策支持,将会遇到以下的一些问题: 决策要求对历史数据进行比较、趋势分析和预测。这些信息通常在运作系统中是无法得到的。数据必须从运作数据存区中提取。随着时间推移,这些提取也增长和扩大。数据的可靠性、有效性和通用性都是无法确定的,因为创建各种分析需要的复本时已生成了原始数据源的多个复本和多个不同水平的数据子集。 在运作系统中的数据是按一个特殊的活动而格式化的,它并不考虑单位决策的需要。从多个运作数据库中得到的数据需要提取和处理,这使得很难顾及单位的要求。为了作出可靠的业务决策或者回答简单的业务问题,分析工作者必须花费大量的时间从不同的数据源中局部化或整合有关的信息。 运作系统是经常更新的。当数据经常改变时,就难于对企业的问题作出一致的回答。而回答的经常改变会混淆决策过程。 运作系统对大量细小的事务进行优化。常常一个查询导致另一个查询。业务用户活动的重复本质以及处理大量数据的需要与运作数据库的设计、目的是冲突的。 很多企业试图用访问数据和提取数据的软件工具从运作系统获得决策支持的数据,有成功的也有不成功的。无论

文档评论(0)

克拉钻 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档