章资料移动与转换.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本章學習重點 各種資料轉換的需求 資料清潔 資料移動與轉換的效率調整 資料移動與轉換工具功能 資料移動與轉換的定義 資料移動與轉換包括了三個不同的步驟 : 提取 (Extraction):由資料來源讀取出資料。 轉換 (Transformation):將資料轉換成適合分析的型態。 匯入 (Load):將合適型態的資料匯入資料倉儲系統。 因此資料移動與轉換簡稱為 ETL。 資料移動與轉換會耗費很多時間 許多資料倉儲系統至少有一半的建置時間都會花在資料移動與轉換上面。 這是由於以下的幾項原因: 資料倉儲團隊對資料在源頭的儲存方式並不熟悉。 資料型態經常需要經過複雜的轉換。 資料清潔需求。 資料量。 資料轉換的類別 簡單轉換:將原本的資料直接轉換成資料倉儲系統內所需要的格式。 資料清潔:將有問題的資料篩選出來並做特別處理。 資料整合:將不同來源的資料做整合以,達到統一資料內容及定義的效果。 合計表格產生:將一些運算動作先做出,已增加資料查詢的速度。 簡單轉換的做法 資料類別轉換 例:數字轉為日期。 日期及時間的轉變 例:YYYYMMDD → DD-MON-YYYY 欄位譯解 例: M?0、F?1、其餘的值一律轉換為2。 資料清潔 在源頭系統中的資料經常是有問題的。常見的情況如下: 欄位有不被允許的資料 資料有漏失 資料錯誤 資料清潔的目的是將這些資料在匯入資料倉儲系統之前先做一個整頓。 資料整合類別 不同資料來源的資料整合 緩慢改變維度支持 資料正規化與非正規化 衍生資料的產生 合計表格產生 合計表格能使一個查詢所需要讀取的資料量減低,因而增進查詢的速率。 合計表格的建置是在資料轉換這個步驟中做出。 資料清潔的需求 如果資料倉儲系統中的資訊的品質不夠,那資料倉儲存在的意義也就消失了。 以下舉出幾項資料源頭可能會發生的問題: 錯誤資料。 資料重複。 物件定義不明。 不合規定資料。 單一欄位中有兩種不同意義的數值。 資料清潔的處理層面 當資料有問題時,我們可以在兩個不同的層面做處理: 資料來源處 資料轉換處 資料來源處的處理方式 主要的好處是如此一來,資料倉儲系統的資料移動與轉換工作就可以比較快速地完成。 包括以下三種做法: 依照找出來的問題修改資料來源系統的資料。 修改資料來源系統的使用者介面。 替換掉原本的資料來源系統。 依照找出來的問題修改資料來源系統的資料 這種方式不必動用到系統本身程式和設計,而是只改變裏面所存的資料,所以比較容易執行。 壞處是資料發生問題的原因並沒有消除。 這只是將資料清潔的工作由資料移動與轉換這個步驟上移至源頭執行而已。 修改資料來源系統的使用者界面 許多資料問題的來源是前線員工在輸入資料時打錯。 因此,一種資料清潔的方式是修改原本系統的使用者界面,以此迫使員工一定要輸入正確的值。如此一來,資料就不再會有定義域之外的值出現。 替換掉原本的資料來源系統 如果我們覺得資料來源系統所造成的資料品質問題不是做一些修改就可以改善的,替換掉原本的資料來源系統是一個可以考慮的作法。 這個處理方式極少被採用,因為這勢必牽扯到許多其他的問題 (尤其是當資料來源是一個複雜的大系統時) 。 資料轉換處的處理方式 這種方式的好處是資料倉儲團隊對這一個步驟有絕對的控制權,所以不必去擔心別的部門的員工需要配合。 這種方式的壞處是這會增加處理資料所需的時間。 資料轉換處處理的方式 將不合規定的資料匯入一個錯誤表格。 將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計。 利用資料轉換處理不合規定的資料。 將不合規定的資料匯入一個錯誤表格 將不合規定的資料匯入一個錯誤表格 錯誤表格中的資料將由資料倉儲團隊做進一步的研究,直到找到了正確的值再匯入資料倉儲中。 由於這種方法需要花費很多人力,所以通常不會被採用。 將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計 將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計 這種方式的運用是當資料品質問題不嚴重時採用。 所有資料都會被匯入資料倉儲內。 能夠很容易獲知哪些是有問題的資料。 利用資料轉換處理不合規定的資料 利用資料轉換處理不合規定的資料 這是最常用的方式。 一般來說,有以下三種方式: 資料對映。 建立新的規則。 以預設的值來替換有問題的資料欄位。 資料擦洗目的 資料擦洗最普遍的例子就是確定單一顧客及由顧客資料導出戶口(Household)資料。 確認單一顧客的目的是讓組織可以精確地瞭解客戶的消費習

文档评论(0)

9988871 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档