ETL开发面试题集.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL开发⾯试题集 ETL讲解(很详细) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,⽬的是将企业中的分散、零乱、标准不统⼀的数据整合到⼀起, 为企业的决策提供分析依据。 ETL是BI项⽬重要的⼀个环节。 通常情况下,在BI项⽬中ETL会花掉整个项⽬⾄少1/3的时间,ETL设计的好坏 直接关接到BI项⽬的成败。   ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不 同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做⼀些数据的清洗和转换),在抽取的过程中需 要挑选不同的抽取⽅法,尽可能的提⾼ETL的运⾏效率。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,⼀ 般情况下这部分⼯作量是整个ETL的2/3。数据的加载⼀般在数据清洗完了之后直接写⼊DW(Data Warehousing,数据仓库)中去。   ETL的实现有多种⽅法,常⽤的有三种。⼀种是借助ETL⼯具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的 SSIS服务、Informatic等)实现,⼀种是SQL⽅式实现,另外⼀种是ETL⼯具和SQL相结合。前两种⽅法各有各的优缺点,借助⼯具可以快 速的建⽴起ETL⼯程,屏蔽了复杂的编码任务,提⾼了速度,降低了难度,但是缺少灵活性。SQL的⽅法优点是灵活,提⾼ETL运⾏效率, 但是编码复杂,对技术要求⽐较⾼。第三种是综合了前⾯⼆种的优点,会极⼤地提⾼ETL的开发速度和效率。   ⼀、 数据的抽取(Extract)   这⼀部分需要在调研阶段做⼤量的⼯作,⾸先要搞清楚数据是从⼏个业务系统中来,各个业务系统的数据库服务器运⾏什么DBMS,是否 存在⼿⼯数据,⼿⼯数据量有多⼤,是否存在⾮结构化的数据等等,当收集完这些信息之后才可以进⾏数据抽取的设计。   1、对于与存放DW的数据库系统相同的数据源处理⽅法   这⼀类数据源在设计上⽐较容易。⼀般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务 系统之间建⽴直接的链接关系就可以写Select 语句直接访问。   2、对于与DW数据库系统不同的数据源的处理⽅法   对于这⼀类数据源,⼀般情况下也可以通过ODBC的⽅式建⽴数据库链接——如SQL Server和Oracle之间。如果不能建⽴数据库链 接,可以有两种⽅式完成,⼀种是通过⼯具将源数据导出成.txt或者是.xls⽂件,然后再将这些源系统⽂件导⼊到ODS中。另外⼀种⽅法是 通过程序接⼝来完成。   3、对于⽂件类型数据源(.txt,.xls),可以培训业务⼈员利⽤数据库⼯具将这些数据导⼊到指定的数据库,然后从指定的数据库中抽取。 或者还可以借助⼯具实现。   4、增量更新的问题   对于数据量⼤的系统,必须考虑增量抽取。⼀般情况下,业务系统会记录业务发⽣的时间,我们可以⽤来做增量的标志,每次抽取之前⾸ 先判断ODS中记录最⼤的时间,然后根据这个时间去业务系统取⼤于这个时间所有的记录。利⽤业务系统的时间戳,⼀般情况下,业务系统 没有或者部分有时间戳。 ⼆、数据的清洗转换(Cleaning、Transform)   ⼀般情况下,数据仓库分为ODS、DW两部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到 DW的过程中转换,进⾏⼀些业务规则的计算和聚合。   1、 数据清洗   数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进⾏ 取。 不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三⼤类。   (1)不完整的数据:这⼀类数据主要是⼀些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主 表与明细表不能匹配等。对于这⼀类数据过滤出来,按缺失的内容分别写⼊不同Excel⽂件向客户提交,要求在规定的时间内补全。补全后 才写⼊数据仓库。   (2)错误的数据:这⼀类错误产⽣的原因是业务系统不够健全,在接收输⼊后没有进⾏判断直接写⼊后台数据库造成的,⽐如数值数据 输成全⾓数字字符、字符串数据后⾯有⼀个回车操作、⽇期格式不正确、⽇期越界等。这⼀类数据也要分类,对于类似于全⾓字符、数据前 后有不可见字符的问题,只能通过写SQL语句的⽅式找出来,然后要求客户在业务系统修正之后抽取。⽇

文档评论(0)

151****6399 + 关注
实名认证
文档贡献者

大专毕业生

1亿VIP精品文档

相关文档