ETL介绍及设计策略.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL介绍及设计策略海航信息 软件开发部 数字化应用中心二○○九年三月目录一、ETL概念及基本工具介绍二、SSIS基本功能和实际应用三、ETL设计包含的功能内容四、决策支持项目ETL平台设计探讨商业智能系统架构ETLETLETLETLETLETLETL—“建设整个大厦的过程”ETL定义Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。 ETL特点实施时间长整个项目实施工作量的60% - 70%过程复杂贯穿业务数据建模与存储的整个过程决定BI项目成败的关键数据的准确性、过程的执行成功与否ETL38个子系统介绍警报与提呈呼叫中心数据:半结构化 数据挖掘ETL文本挖掘转储原有数据:二进制文件转储仓库ETL手工编码转储净化 和ETL报告应用程序数据库 ETL移动数据ETL工具实现功能工具和手工编码比较开发方式比较方面采用ETL工具手工编码灵活性比较灵活最灵活难易程度相对容易要求一定技术水平管理和维护容易较难可移值性好差性能和效率较高取决于编写者水平开发周期较短较长价格较高相对较低主流ETL工具比较SSISData StageInformaticaOWB追加数据处理√√√√存储过程√√√√.EXE和.DLL√√√×自定义函数√×√自定义SQL√√√√编辑脚本√××√E_MAIL通知√√√√出错信息写入文件√×√×日志√√√×调试监控、断点√√√√调试数据修改√×√断点续传√×√×出错回滚√√√大字段支持√√√√移植方式使用资源库发布,配置Profile连接文件配置连接信息,配置参数,导出dsx备份文件配置连接信息,配置参数,导出项目文件配置参数LocationETL设计开发流程目录一、ETL概念及基本工具介绍二、SSIS基本功能和实际应用三、ETL设计包含的功能内容四、决策支持项目ETL平台设计探讨移动数据文本挖掘组件呼叫中心 半结构化数据合并数据净化组件数据挖掘组件标准来源自定义来源仓库原有数据:二进制文件报告SQL Server 集成服务应用程序数据库SSIS工具整合模式SSIS架构SSIS架构描述A.Integration Services service独立的服务程序(Windows service)整合在Management Studio一起管理监控封装的执行状况管理封装的储存与移转封装开发与封装执行可以不用启动该服务B.Integration Services Object Model提供应用程序API接口整合.NET提供整合组件进行程序开发提供客制化组件开发包括Task、Data Flow Component…C.Integration Services runtime +executables管理封装执行、记录、交易与连结处理封装, Containers, Tasks, Event handlers… D.Data Flow taskData Flow Engine提供在内存处理数据搬移、转换、修改等作业项目有数据来源、转换、数据目的三大组件可视化控制流解决调度问题可视化的任务流定义可视化控制流SSIS功能A、整合多种企业异质数据来源SQL、Oracle、XML、Excel 、 Text…使用.NET 、OLEDB 、 ODBC…B.建置数据仓储与数据超市透过Restart机制增强处理速度提供Slowly Changing Dimension 强化数据更改功能提供汇总函数功能 SUM、AVG、COUNT、PIVOT等C.整理与标准化数据提供多种数据的合并转换、去除重复作业功能提供Fuzzy 群组化与寻查的功能,Micro Soft = MSFT = MicrosoftD.整合商业智能作业提供多种Container、Task、数据转换功能可以提供给报表服务作为数据来源E.自动管理与整合数据库整合数据、对象、账号转换整合在Management Studio进行管理Integration Services整合SQL Server代理程序作业SSIS元数据管理目录一、ETL概念及基本工具介绍二、SSIS基本功能和实际应用三、ETL设计包含的功能内容四、决策支持项目ETL平台设计探讨ETL面对的数据质量问题 1 . 数据仓库的数据来自于多个数据源,所以数据的一致性很难得到保证,很多情况下需要一种硬性的标准来决定数据的取舍问题.  2 . 数据格式问题,例如数据缺失,超出数据范围,无效数据格式等等。  3 . 出现错误之后没有正确的处理问题,导致数据的质量不断的下降。  4 . 数据一致性问题,处于数据库性能考虑,有时候可能会有意的去掉一些外间或者检查约束。  5 . 业务逻辑问题.由于数据库在最初设计时就不够严格和谨慎。数

文档评论(0)

wxc6688 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档