ETL设计实施策略.doc

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL设计实施策略.doc

成功的业务智能 (BI) 应用程序需要可靠的工具来运行。如果开发人员和管理员具备有关如何执行成功实现方面的有关知识基础(也就是最佳实施策略信息),也会有助于创建这些应用程序。Microsoft 与其多个合作伙伴通过 Project REAL 为基于 Microsoft(R) SQL Server(TM) 2005 的 BI 应用程序找到最佳实施策略。在 Project REAL 中,通过创建基于真实客户方案的引用实现来研究最佳实施策略。这意味着客户数据将被带到企业内部,并用于解决这些客户在部署过程中遇到的相同问题。这些问题包括:? ? 架构设计 - 关系架构和 Analysis Services 中使用的架构。? ? 数据提取、转换和加载 (ETL) 过程的实现。? ? 客户前端系统的设计和部署(用于报告和交互分析)。? ? 生产系统大小的调整。? ? 系统的持续管理和维护,包括对数据的增量更新。 ? 通过使用真实的部署方案,我们能全面了解如何使用这些工具。我们的目标是解决大型公司在进行自身真实部署过程中会遇到的各种问题。 ? 本文主要讨论 Project REAL 的 SQL Server Integration Services (SSIS) 提取、转换和加载 (ETL) 设计。此设计基于 Barnes Noble 的 ETL 体系结构 - 完全使用 SSIS 构建并且是 SSIS 的第一个 ETL 产品实现。由于此解决方案不是在数据转换服务 (DTS) 或其他 ETL 工具基础上的升级设计,因此所采用的许多方法不同于 DTS 中的典型 ETL 体系结构。此解决方案的目的是利用 SSIS 的全新应用程序体系结构,以另外一种角度思考并设计一种 ETL 过程,使其成为常规的 ETL 设计最佳实施策略的一个模型。在本白皮书中,我们将说明每一个方案的设计决策和 Project REAL SSIS 处理过程的实现细节。 ?? 有关 Project REAL 的概述,请参阅名为 Project REAL:技术概述的白皮书。Project REAL 在存续期间将导致大量论文、工具和示例的产生。要查看最新的信息,请退回到以下站点: /sql/bi/ProjectREAL ? Project REAL 是 Microsoft 和 BI 领域的众多合作伙伴之间的协作尝试。这些合作伙伴包括:Apollo Data Technologies、EMC、Intellinet、Panorama、Proclarity、Scalability Experts 和 Unisys。Project REAL 的业务方案和源数据集由 Barnes Noble 友情提供。 ? 注意:本白皮书是初稿,其中包含我们根据使用 SQL Server 2005 的早期社区技术预览 (CTP) 版本的经验推荐的最佳实施策略。本白皮书在发布时是准确的。本文档中的产品功能可能会改变,将来可能会开发出更好的实施策略信息。 Project REAL ETL 目标 ? 为了支持报告和分析要求,任何业务智能 (BI) 系统中都存在 ETL 处理。需要按此支持功能实现 ETL。这没有降低 ETL 的重要功能,因为要报告的数据将通过 ETL 处理过程直接进行处理。ETL 要考虑该处理过程的计时、性能和准确性等方面;ETL 设计的支持、管理、灵活性和可扩展性也非常重要。真实系统通常出现一些影响 ETL 的未知情况和异常情况。这就要求 ETL 处理过程能够轻松处理各种变化并为稳定系统的最终目标服务。 对于 Project REAL,这些关键方面使得 ETL 设计需要实现以下几个主要目标: ? ETL 管理。为了提供管理支持,实现了可以跟踪和报告 ETL 元数据的设计。这为用户进行参考和故障排除提供了清晰的处理过程状态,有助于隔离问题和解决问题。 ? 动态配置。开发这项功能是为了在发布和分发核心组件时支持企业系统。包含根据企业和技术要求变化以及大型支持开发团队的相应环境来考虑设计的适应性。 ? 平台集成。这涉及到设计一种与 BI 解决方案的多个层次进行交互的解决方案。包括安全性、基础结构、关系和 OLAP 结构、获取数据的报告和分析工具。 ?? 性能。鉴于数据仓库中处理和管理的数据量,注意性能问题对于 Project REAL 解决方案来说非常重要。数据总共可高达数 TB。 ? 内容提要 ? 本文主要介绍几种特定的设计原则以及从设计过程获得的一些经验教训,并说明解决方案的整体体系结构。文中提供了详细参考并包含解决方案的一些设计要点。随着新解决方案的成熟和在 SQL Server 2005 平台上的开发,将会发布更详细的、更全

文档评论(0)

蝶恋花 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档