模糊资料探勘.ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模糊资料探勘

第三章 資料前置處理 第三章 資料前置處理 簡介 資料前置處理的主要工作 遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結 資料未經處理的問題 資料不完整 (data incomplete) 資料中某些屬性值有遺缺 缺少某些分析時需要用到的屬性,Ex:性別 資料有雜訊 (noise) 資料有錯誤或是特例(outlier)造成 資料不一致 (data inconsistency) 由不同來源整合而得所產生 商品在台灣是以台幣,在美國則是美金計價 ★有高品質的資料,才有高品質的探勘結果 第三章 資料前置處理 簡介 資料前置處理的主要工作 遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結 前置處理的主要工作 資料整合 資料整合 (data integration) 解決多重資料來源的整合問題 主要工作 消除資料不一致 數值不一致 (data value conflict),Ex :單位不一 綱目不一致 (schema conflict),Ex:屬性名稱不一,會員姓名和顧客姓名 消除資料重複性 數值重複,Ex:A和B資料表有同一會員資料 綱目重複,Ex:生日和年齡 資料清理 (1) 確認資料正確性、完整性 常見的資料正確性問題 資料清理 (2) 確認資料完整性 常見的資料完整性問題: 資料清理 (3) 其它清理工作 遺缺填補:人工填補或自動填補 雜訊消除:雜訊使探勘結果有相當大的偏差,必須將雜訊移除或將資料做平緩化處理 (smoothing) 資料轉換 資料統整化(data aggregation) 加總、統計或是建立資料方塊(data cube) 目的:將資料做初步整理,使得資料更適合探勘 一種資料精簡化處理 資料一般化(data generalization) 資料的概念階層 (concept hierarchy) 向上提升 會員地址用城市或是北中南東四區取代 可將某屬性中所包含的不同數值減少,資料精簡的方法之一 建立新屬性(attribute construction) 利用舊屬性將探勘所需的新屬性建立 生日屬性產生年齡屬性 第三章 資料前置處理 簡介 資料前置處理的主要工作 遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結 資料遺缺原因 資料建立時未輸入 故意或是不小心造成資料沒有被輸入 設備故障 例如收銀機故障,導致顧客消費明細無法輸入 因資料內容不一致而被刪除 當資料內容不一致時,為了避免錯誤的資料影響分析的準確性,可能會將該項資料以空值取代,因此產生資料的遺缺 資料遺缺處理方法-直接忽略法 處理資料遺缺最簡單的方法 適用時機 進行分類探勘時,若資料的分類標記 (class label)為空值,這筆資料因無法被正確分類,便可直接刪除,Ex:信用等級 適用對象 蒐集資料量很多、遺缺資料只佔一小部分 缺點 資料遺缺比例很可觀時,會造成大量資料流失 資料遺缺處理方法-人工填補法 處理資料遺缺的現象,可採用人工來填補 範例 當某會員資料的生日屬性有遺缺,可打電話詢問該會員,以取得其生日並加以填補。 缺點 當資料遺缺較多時,耗時且人力負擔沉重。 資料遺缺處理方法-自動填補法 主要兩種方式 填入一個通用的常數值 如填入 “未知/unknown” ,成為一個新的類別 填入該屬性的整體平均值 不會對統計結果造成太大的影響 優點:可以在不影響統計結果的情況下,保留此資料屬性 缺點是不夠客觀 更精確作法是用推論法求出較可能的值來填入 方法基本上有兩種,一種是貝式方程式 (Bayesian formula),另一種方法是利用決策樹 (decision tree) 第三章 資料前置處理 簡介 資料前置處理的主要工作 遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結 雜訊的處理方法 結合電腦和人工檢視 結合電腦偵測與人工檢視,Ex:大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再利用人工方式確認 缺點:需要人力介入,曠日費時,不實際 資料平緩化處理 回歸分析法 (regression analysis) 將資料套入回歸函數以消除雜訊 裝箱法 (binning method) 將資料排序並切割成數個箱子 用所有資料的平均值、中位數或邊界值來取代箱子中的每一筆資料以消除雜訊 包括等寬分割法(或稱等距分割法)和等深分割法(或稱等頻分割法) 裝箱法 - 等寬分割法 等寬分割法(或稱等距分割法,Equal Width/Distance) 將資料的數值範圍劃分為N 個間隔相同的區間 若A和B分別為此屬性中的最小與最大值,則每個區間的間

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档