- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《资料探勘》PPT课件
資料探勘第一單元 資料探勘的簡介 資料的預備 本周綱要 資料預備概念與重要性 資料預備的工作項目 原始資料的特性與資料預處理 資料的減量 資料預備概念 何謂資料預備? 資料庫中的原始資料,經常包含許多雜質、不完整或是不一致的資料。 資料預備通常包括了資料的預處理與資料的減量。 資料預備的重要性 資料預處理主要目的在針對原始資料中的雜質(異常)、不完整或不一致的資料進行處理。 資料減量目的為降低原始資料量或資料維度,以減輕進行資料探勘負擔。 資料預備的主要目的在對於原始資料進行預處理與資料減量,將資料以標準格式進行組織及改善資料的質量,以便能夠得到最佳的資料探勘結果。 資料預備包含的工作項目 資料的預處理 資料清理 資料整合 資料轉換 資料的減量 資料的減量之目的就是縮小欲進行探勘資料的數量或是維度,但是基本上以不影響探勘之後的結果為主。 原始資料的類型 數值型的資料 包括實數變數以及整數變數 數值型資料的值是具有順序關係的,例如:3 6, 6 8 數值型資料的值是具有距離關係的,例如:2.5與5.7間的距離為3.2 類別型的資料 類別型的資料又稱為符號型或象徵型的資料 類別型資料僅具備相等或是不相等的關係,例如:黑色=黑色,白色≠紅色 許多常見的資料屬性都屬於類別型資料,如:顏色、姓別、國籍 類別型的資料假如只有兩個值的話,例如:是 / 否,男性 / 女性,通常可以0或1來轉換為數值型的資料 如變數值較多時,如:有N個變數值情形下,就可以N個二位元數值變數去表示 原始資料的類型 以資料值的類型來進行分類 連續變數 區間比例 (零點的定義隨應用而定) 比率比例 (具有絕對的零點) 離散變數 名義變數 (如郵遞區號, …) 次序變數 (次序或等級的關係,如等第, …) 週期變數 (距離的關係,如一週的天數, …) 根據的是資料與時間之間的變動特性關係來進行分類 靜態資料 動態或是臨時性的資料 原始資料的類型 高維度的資料 在資料探勘領域中將資料具有很高維度的情形,稱之為維度的災難 高維度的資料具有以下四個重要的特性: 在同樣的資料密度下,資料受影響的數量將會隨著維度的增加,而呈指數的倍數增加。 需要很大的半徑才能包含大維度空間內的所有資料 幾乎每一個高維度空間的資料點與邊之間的距離都比與其他點的距離近 在高維度的情況下,幾乎每一個點都是離群值 原始資料的特性 原始資料剛開始的資料量非常龐大 原始資料都是非常雜亂的 原始資料中,可能有不完整、扭曲、記錄錯誤和不充分的資料 資料的不完整,可能在衡量、計算時發生錯誤 造成雜亂的原因為記錄的錯誤,特別是在大量的資料中最容易產生這種情況 扭曲的資料 選擇錯誤的資料衡量方法 錯誤的資料探勘的工具 太過理想化的模式下 不一致的資料 不一致的資料所指的是相同的資料卻出現兩種以上不一致的狀況 發生原因: 通常是因為命名規則出現問題(如同一個屬性在不同 表中的名稱不同)、資料格式的不 同,或是資料代 碼的不同。 不完整的資料 在原始資料中,空的資料值或是有所遺漏的資料,都稱之為不完整的資料。 發生原因: 資料屬性並非必須,在進行資料記錄時,易造成時有時無的情形。 資料在當時被認為是不必要的。 誤解或記錄設備的問題,而使得相關的資料未被記錄。 與其他紀錄的內容不一致而被刪除。 資料為歷史的紀錄,而且沒有經過修改與更新。 不完整的資料 處理的方法 通常由進行資料探勘的技術人員,邀集相關知識領域的專家,以其專業的領域經驗,輸入合理、可能或期望的資料。 利用較為簡單且自動化方法來填補資料,以解決資料不完整的情形。 利用一個已事先定義好的單一值來填補所有遺漏的值 利用平均值的方式,填補遺漏的資料 利用分類後的子群組之平均值填補遺漏的資料 利用預測的技術,以求得遺漏的資料最可能的值 迴歸分析、貝氏網路、決策樹或是叢聚方法。 異常的資料 所謂資料中的雜質、異常的資料指的就是資料中存在錯誤或離群值(與大部分資料的分布差距過大)。 發生原因 資料蒐集的設備出現問題。 在記錄資料的過程中,發生人為或是電腦方面的錯誤。 資料在傳輸的過程中產生錯誤。 異常的資料 處理的方法 人工的離群值偵測方法 在離群值的偵測技術中,假如資料的維度在三以下時,最方便的偵測方法就是利用視覺化的方法。 自動的離群值偵測技術 統計的方法 以距離為基礎的方法 以偏差為基礎的方法 異常資料之處理 Binning方法 分配的方法有等高式和等寬式,如圖所示 等高式資料分配方式,指的是每一個箱子中的資料數目皆相等 等寬式的分配方法則是每個箱子中的值之間距 (箱子中最大值和最小值差距) 相等,一般而言寬度愈大,平滑效果愈明顯 分配好每個箱子中的資料後,隨即可以進行資料的平滑化 平均值法資料平滑化技術 中
文档评论(0)