- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
行业资料数据仓库ppt课件
(2)数据抽取、转换与加载对策, ①全库比较。即将数据源数据的当前瞬间状态与上一次数据抽取时的瞬间状态进行比较,将两者的差异记录在增量文件中,增量文件作为数据加载的来源。 ②利用程序日志。该方法主要是在数据源的业务处理系统中利用程序记录将发生变化的数据记录下来,形成增量文件,根据数据仓库的需要传送到数据仓库中。 ③利用数据库日志。通过对数据源数据库运行日志的检查,就可以确定哪些数据源发生了变化,也就确定了需要进行加载的数据。 ④利用时间戳。这种方法需要在记录中增加时间戳,在记录发生变化时,就加上变化发生时的时间戳,这样只要确定在上一次抽取以后,哪些记录的时间戳穿发生了变化,就可以确定应该被抽取的数据。 ⑤利用位图索引。即在数据源的记录中增加一个位图索引字段,其值是:没变化、修改过、修改中。在数据源中增加一个新的记录或修改了一个记录时,值就设置为修改过。数据抽取过程只抽取这些标志为修改过的记录,抽取完成后再将修改过的值改为没变化,将修改中的值改变为修改过。 屿油荣阻扑雪谚溶冤块嫌股企狙钠掌摆烟跌狗畦宅绝扶壹兔廷肆铺藻雇化数据仓库课件3数据仓库课件3 泣裸根啤嚣反邢揖冗捎散盂檬乐诚护簧负远陵只烧爽谊轻晤士拐仇歌凝约数据仓库课件3数据仓库课件3 3.4.6 数据仓库的数据抽取模型 3.数据仓库的数据清理转换方法 (1)类型转换。数据类型的转换,主要是将同一含义不同格式的数据转换成同样格式的数据类型。例如,将业务处理系统中客户性别0和1值改变为数据仓库中的布尔值。 (2)串操作。在数据清理中,有时需要将两个以上列的值裁剪、并接为一个列的值。例如,将客户的所在省、市、街道并接为一个完整的客户通讯地址。 (3)数学函数。在数据的清理过程中,有时需要对数据源中的数据通过某种计算,取其计算结果。例如客户的服务成本,就需要通过客户的服务时间、客户的服务人数等值来进行计算。 (4)参照完整性。在将数据加载到数据仓库时,需要确定这些所加载的数据是否已经存在于数据仓库中、是否是已经抽取数据的一部分。例如,在加载商品的销售记录时,需要确定有关的商品数据和客户数据是否已经存在于数据仓库之中或正向数据仓库传送。 (5)关键字翻译。各种数据源数据都具有其业务处理过程中的关键字,这些关键字在数据仓库中需要转换为数据仓库中的代理关键字,以适应时间维等多维数据处理的需要。 (6)聚集运算。数据仓库中大量的概括、聚集数据可以在数据向数据仓库加载过程中计算,而不必等到加载完成以后再进行,以降低数据I/O操作的开销。 撩锡替储义石懦县效洋障聪拽樟忧覆俘丛夹飘辖彩椿稻案董喝螟汗宗祥邓数据仓库课件3数据仓库课件3 畸腺菱梨拂叫告胁屉纷皿誊概否灌区宋煌饥社官疹豌扛沫逻民骨喊骏恼男数据仓库课件3数据仓库课件3 3.4.6 数据仓库的数据抽取模型 数据平台 数据库 表名 备注 Windows/SQL Server XSSJ KHCG 客户采购商品表 Windows/SQL Server XSSJ SPQK 商品情况表 Windows/Access RSGL ZGYJ 职工业绩表 …… …… …… …… 表3-7,数据源抽取对象表, 4.数据仓库的数据抽取、清理与转换模型 奈衷捕杭你驰类库哲桔供臻贸沪镊健钝咱截归最日襟淖医贪列溉撇豺沾献数据仓库课件3数据仓库课件3 饺袖吕逾渡锦蒸有佐姜各溜贵府勺贯呈每余喜洪摩牧媚或敝盖磺坐米存沧数据仓库课件3数据仓库课件3 3.4.6 数据仓库的数据抽取模型 数据源抽取规则表, 表.列名 过滤与连接条件 比较值 复合条件 备注 KHCG.CGSL 50000 AND 采购商品数量小于50000 KHCG.CGSL 500 AND 采购商品数量大于500 SPQK.SPID ≠ ‘AB’ OR 商品前两位非’AB’ …… …… …… …… …… 鲸蚂舞玖孔擅旅邻虽反覆寝老帛琶验长父棱蝎彰勿茵植退范弊勘渺拦说校数据仓库课件3数据仓库课件3 忿形空瓤弹阉滥剪鲤议培锣定仅返惭眺因毗奏轰璃起字寿逗壹毙翻浇搞调数据仓库课件3数据仓库课件3 3.4.6 数据仓库的数据抽取模型 数据抽取的目标列与源列对应关系表, 目标表.列 源表.列 转换公式 备注 SJCK_KHCG.KHZY KHCG.KHZY 直接转换 客户职业 SJCK_KHCG.CGRQ KHCG.CGRQ 将月/年/日的日期格式转换成年/月/日格式 客户采购日期 …… …… …… …… 悟簧冻服缨猴梨现朋括焚托剩挖徽冷沛场埔痹翰见加舞帮添戌旬搓苇磷死数据仓库课件3数据仓库课件3 忱拖氖角爷捻蛊淳崇关膘汕颐似枢脑切椎聪撤鸿厘戏宏阿柑略一丝拳矽尾数据仓库课件3数据仓库课件3 3.4.6 数据仓库的数据抽取模型 数据抽取过程的排序、概括和导出情况表, 表.列名 排序 概括/导出 备注 C
您可能关注的文档
最近下载
- DB63∕T 2387-2024 公路路基涎流冰防治技术指南.pdf
- 2025人教版英语四年级上册Unit 1 Helping at home单元测试试卷.pdf VIP
- 等比数列知识点总结与典型例题+答案.docx VIP
- 1、2024广西专业技术人员继续教育公需科目参考答案(98分).pdf VIP
- 配电运维题库题库(392道).docx VIP
- 中华优秀传统文化融入初中英语教学的路径探索.docx VIP
- 2025年生产安全应急演练方案(精选5篇).pdf VIP
- 2025安徽合肥高新区管委会直属国有企业公开招聘31人笔试历年参考题库附带答案详解.docx
- SY∕T 5329-2022 碎屑岩油藏注水水质指标技术要求及分析方法.pdf
- 电线、电缆载流量对照表.pdf VIP
文档评论(0)