- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料的前期处理
簡介 所謂的資料前置處理是指在進行資料探勘之前,為了讓資料更適合進行探勘的工作,對於資料所做的預先處理動作。 在整個資料探勘的過程當中,資料前置處理所需要花費的功夫通常是最多的,同時資料前置處理也是對探勘品質影響最大的一個關鍵步驟。 資料前置處理的主要目的就是解決資料品質不良的問題,使得探勘結果的品質得以提升。 簡介 未經處理的資料可能存在許多品質不良的情況: 資料不完整(data incomplete) 資料不完整的情況最常見的便是資料中有某些屬性值有遺缺。例如:某顧客填寫會員資料表時,可能遺漏了填寫年齡這一欄。 一般在線上作業的資料庫系統,除非管理者將資料庫中的每一個欄位均設定為不可接受空值(null),否則即有可能在某些欄位出現資料遺缺的情況。 簡介 資料有雜訊(noise) 此問題多半是因資料有錯誤或是特例所造成的。例如,顧客填寫會員資料表時,有可能因為要保護自己的隱私而故意填寫錯誤的資料。 雜訊不一定全是故意填錯造成的,也有可能是因為填寫資料時不小心或是資料中原本就包含特例而產生的。例如:一般男生的身高大多介於165公分到185公分之間,然而有一位顧客的身高是197公分,這便是一個特例。 雜訊不僅可能導致探勘的結果不正確,也有可能會誤導探勘的結果分析。 簡介 資料不一致(data inconsistency) 資料不一致的情況有許多,主要是因為資料由不同來源整合而得所產生。 例如某一跨國性的企業,其商品在台灣是以台幣計價,而在美國則是以美金計價;當兩國的銷售資料被整合在一起做探勘時,若沒有經過適當的單位轉換,便會產生完全不正確的探勘結果。 資料前置處理的主要工作 資料前置處理主要包含資料整合(data integration)、資料清理(data cleaning)以及資料轉換(data transformation)等三項工作 。 資料整合 所謂的資料整合便是將多重來源的資料整合在一個貯存庫中,因此資料整合最主要的目的便是解決多重資料來源的整合問題。 資料整合的主要工作有二: 消除資料不一致 消除資料重複性 資料不一致的情況 數值不一致(data value conflict) 例如商品價格在某個資料來源中用台幣計價,而在另一個資料來源中卻用美金計價。這種數值單位不一致的現象,透過單位換算,使數值的計算單位統一,即可消除。 另外一種數值不一致的情況是不同來源的資料內容不相同。例如:同一位會員在A資料表中記錄的年齡是30歲,然而在B資料表中卻是25歲。因為無法判定究竟哪一個資料表是正確的,通常會採取的作法是將該屬性的資料刪除,以空值來取代,以消除內容不一致的情況。 資料不一致的情況 綱目不一致(schema conflict) 多半是屬性名稱不一致所造成的。例如有的資料來源用「會員姓名」這個屬性名稱,而另一個資料來源卻用「顧客姓名」這個屬性名稱,雖然名稱並不相同,但實際所代表的意義卻是一樣的,可以透過屬性更名的動作來進行統一。 資料重複性的情況 數值重複 例如整合中發現A資料表中有某會員的資料,在B資料表中也有同一位會員的資料,則可刪除其中一筆記錄,以免造成資料重複。 綱目重複 例如資料經整合之後發現其中同時包含生日以及年齡這兩個屬性,因為年齡可以從生日推導出來,因此可以將年齡這個屬性刪掉以避免資料重複。 資料清理 資料清理的步驟主要目的是確認資料的正確性以及完整性,使得資料探勘能夠順利進行。 常見的資料正確性問題 常見的資料完整性問題 其它相關的資料清理工作 遺缺填補:為了不讓屬性值有遺缺的資料影響探勘的結果,在進行資料探勘之前,應該設法把遺缺的資料填補進去。填補的方式又可分為人工填補或是自動填補。 雜訊消除:由於雜訊的存在有可能會使探勘的結果有相當大的偏差,因此必須將雜訊移除或是將資料做適當的平緩化處理(smoothing),以降低或是消除雜訊對於探勘結果的影響。 資料轉換 資料轉換的主要目的是將資料內容轉換成更容易探勘或是探勘結果可信度更高的狀態。 基礎的資料轉換工作包括資料統整化(data aggregation)、資料一般化(data generalization)以及建立新屬性(attribute construction)等。 進階的資料轉換工作包括資料正規化、資料形式轉換、資料形態轉換等等。 資料統整 資料統整是指將現有的資料做加總、統計或是建立資料方塊。例如:將商品銷售資料按照銷售地區或是商品類別做加總。 資料統整的目的是將資料做初步的整理,使得資料更適合探勘的工作。例如:整合後的資料中有每一天的商品銷售紀錄,然而想要進行的探勘工作是找出銷售業績與氣候的關係。由於以每一天的數據來看,很可能因為資料變化太大而找不出規律性,
文档评论(0)