資料採礦方法論.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
資料採礦方法論

資料採礦方法論李全鴻吳家榮林俊佑 前言 介紹資料採礦的兩種基本模式:假設檢定及知識發掘,提出步驟及範例。 次序 一、假設檢定過程 二、監督式知識發掘 三、非監督式知識發掘 四、實際的問題 五、案例 基本模式 假設檢定(Hypothesis Testing):由上而下 將可能的解釋賦予觀察到的現象,並將假設套用在原始資料上檢視解釋是否正確。 知識發掘(Knowledge Discovery):由下而上 分析原始資料,從中找出有用的規則或訊息,又被稱作「機械學習」。 假設檢定 過程介紹 假設檢定的過程 構思合理的假設 決定採用哪些樣本供測試 找出樣本資料 統整資料以供分析 根據資料建立電腦分析模型 評估假設是否正確 假設檢定的過程 1. 構思合理的假設: 在此階段重要的是要得到廣泛的相關訊息,以這些訊息來明確的作問題陳述。 建議採用集體討論座談的方式來集思廣益。 假設檢定的過程 2. 決定採用哪些樣本供測試: 產生假設後所決定,樣本可能存在於企業既有的資料庫中,也可能要從零散的資料做匯整,進行市場調查,甚至花費鉅資向調查公司購買相關的資料。 假設檢定的過程 3. 找出樣本資料: 所需的資料往往散佈在各種不同的作業系統中,而且往往格式不同。且面對問題的差異,「有用」及「可立即取得」的原始資料往往大相逕庭。 假設檢定的過程 4. 統整資料以供分析: 在此步驟,必須將原始資料轉換成資料採礦軟體所需的格式。可能要將連續值轉換成類別變數,或將數字差異大的數據標準化等等。 但在這個過程中可能會遇到的問題包括: (1) 分類階層 (2) 系統不相容 (3) 資料編碼不一 (4) 文字資料的轉換 (5) 遺漏值的處理 假設檢定的過程 (1) 統整資料的問題:分類階層 資料的分類並非越詳盡越好。太詳盡的分類會造成以下的問題。 (a) 並非分析所需的分類 (b) 單一分類的樣本太少 然而未經統整的資料卻又太過龐大,因此選擇適當的分類階層是重要的一步。 假設檢定的過程 (2) 統整資料的問題:系統不相容 每種作業系統可能都有他們自己的一套語法,並沒有所謂共通的語言,然而這個問題在目前套裝的軟體多半可以以自動轉換的方式獲得解決。如SAS除了ASCII之外,也可以支援EXCEL的格式。 假設檢定的過程 (3) 統整資料的問題:資料編碼不一 從不同來源收集特定目的的原始資料時,相同的變數資料可能會以不同的形式記錄下來,在統整時必須謹慎處理。 假設檢定的過程 (4) 統整資料的問題:文字資料的轉換 少數情形下我們會想要從文字資料中獲得有用的情報(如MBR中的「新聞報導分類」),但多數純文字的格式都必需經過轉換。 文字資料的格式若有一定的標準則較好處理,但仍需注意某些細節,如「台中市」與「臺中市」就會被電腦當作是兩個不同的數值-但其實他們是一樣的。 假設檢定的過程 (5) 統整資料的問題:遺漏值的處理 通常會選擇對有遺漏值的資料不予估計,但若真的要使用的話,就必須以最可能的數值進行替換。 可能數值的搜尋可以利用資料比對的方式,比較有遺漏值的樣本與資料庫中哪個完整樣本的相關性最強,並以完整樣本的數值取代遺漏值。類神經網路也可幫助推估出可能的數值。 假設檢定的過程 5. 根據資料建立電腦分析模型: 將所需分析的問題根據所蒐集資料的特性建立起適當的分析模型。 假設檢定的過程 6. 評估假設是否正確: 將分析模型應用在資料上,檢視假設是否成立。然而如同作學術研究,在技術的分析後往往要靠專業人士針對分析的結果提出商業或管理上的意涵,才能變成真正有用的結論。 知識發掘 知識發掘的分類 可分為監督式及非監督式兩種 監督式:如MBR 找出特定變數的數值有何意義,並選定輸出變數,讓電腦找出如何對其進行評估、分類或是預測。也就是嘗試對已知的型態關係進行解釋。如選定「可能會倒帳的客戶」為輸出,將變數(如年收入及性別等)放入進行分析。 非監督式:如購物籃分析 沒有輸出變數,此模式的目的在於讓電腦自行找出顯著關聯的型態。 監督式知識發掘 希望能夠解答特定的問題時使用。其程序包含以下四步驟: (1) 確認原始資料來源 (2) 彙整資料以供分析 (3) 建立並測試分析模型 (4) 評估分析模型 監督式知識發掘 (1) 確認原始資料來源: 最佳的資料來源是既存的資料倉儲,倉儲內部的資料皆經過固定格式的整理,方便進行分析。然而多數的情形下企業並沒有建立資料倉儲,必須收集各部門的相關資訊。 監督式知識發掘 (2) 匯整資料以供分析: 如同假設檢定時的資料彙整原則,加入有用的變數可以增加產出有用結論的機率。 許多資料採礦的情形下,資料都必須被分為「訓練集」(建立初始模型)、「測試集」(調整初始模型)

文档评论(0)

teda + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档