- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料采矿方法论-CRISP-DM.ppt
資料採礦方法論-CRISP-DM 呂永和 教授整理 前言 在實施資料採礦之前,先制定採取什麽樣的步驟,每一步都做什麽?要達到什麽樣的目標?有了好的計劃才能保證資料採礦有條不紊的實施並取得成功。很多軟體供應商和資料採礦顧問公司投提供了一些資料採礦過程模型,來指導他們的用戶一步步的進行資料採礦工作。 資料採礦方法論 1995年在蒙特婁召開Knowledge Discovery in Database (KDD)國際研討會, 討論資料採礦的方法論, 流程, 演算法與實務應用. Sample, Explore, Modify, Model, Assess (SEMMA) – SAS CRoss Industry Standard Process for Data Mining (CRISP-DM) – SPSS SEMMA有跨工具障礙, CRISP-DM為業界主流 SEMMA 採樣(Sample),探索(Explore),修正(Modify),建模(Model),評估(Assess) CRISP-DM 1990年由SPSS與NCR在合作Daimler Benz 的資料倉儲及資料採礦的專案中開始發展 1996年SPSS與NCR利用成功案例的過程定義出跨產業與商業問題的標準化流程, 並於1997年於阿姆斯特丹正式誕生CRISP-DM SIG (Special Interest Group). CRISP-DM為一種階段式的方法論, 可分為六大階段, 每一階段又可分為分項工作與工作產出. 基本步驟 資料採礦步驟6個基本包括: ?????? 1. 定義商業問題(Business understanding) ?????? 2. 分析資料 (Data Understanding) ?????? 3. 準備資料 (Data Preparation) ? ???? 4. 建立模型 (Modeling) ?????? 5. 評估模型 (Evaluation) ?????? 6. 應用模型 (Deployment) CRISP-DM 一、定義商業問題 在開始資料採礦之前,最先的同時也是最重要的要求就是了解的你的資料和業務問題。如果事先沒有這種瞭解,沒有任何演算法,不管他有多麽複雜玄妙,能夠爲你提供有價值的結果,即使有也難以使人信賴它。 缺少了專業背景知識,你就沒辦法明確定義要解決的問題,不能爲挖掘準備資料,也很難正確的解釋得到的結果。要想充分發揮資料採礦的價值,必須要對你的目標有一個清晰明確的定義。 例如,想提高直接郵件推銷(DM)的用戶回應時,你想做的可能是“提高用戶回應率”,也可能是“提高一次用戶回應的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的。 有效的問題定義還應該包含一個對你的資料採礦專案得到結果進行衡量的標準。 一、定義商業問題 資料採礦的目的是解決企業內部的問題 一個成功的資料採礦顧問必須同時具有三大專業,分別是演算法與統計、資料庫與資訊平台、產業專業知識,三者缺一不可。 二、? 建立資料採礦庫 連同下面的兩個步驟(分析資料、準備資料),這三步構成了資料預處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時間和精力還多。一旦你從資料採礦的結果中學到一些什麽之後,你很可能要修改資料以得到更好得結果,因此就需要把資料準備和資料採礦不斷的反復進行。資料準備工作大概要花去整個資料採礦專案的50%-90%的時間和精力。 應該把要挖掘的資料都收集到一個資料庫中。注意這並不是說一定要使用一個資料庫管理系統。根據要挖掘的資料量的大小、資料的複雜程度、使用方式的不同,有時一個簡單的Excel文件就足夠了。 一般來說,直接在公司的資料庫上進行資料採礦是不合適的。你最好建立一個獨立的資料集。 大部分情況下需要修改要挖掘的資料。例如,需要將企業外部的資料加到原有的表格中。例如,戶口普查資料(Demographic data) 需要建立獨立的資料採礦庫的另一個理由是,資料庫可能不支援你要對資料進行各種複雜分析所需的資料結構。這包括對資料進行統計查詢,多維分析,和各種複雜的圖表和視覺化。 也可以使用既有資料庫所提供的資料採礦環境,例如,SQL Server。 可以把建立資料採礦庫分成下面幾個部分: 資料收集 資料描述 選擇 資料品質評估和資料清理 合併與整合 構建元資料 載入資料採礦庫 維護資料採礦 注意這些步驟並不需要一定要按步驟執行,而應該按需要進行。比如你可能在收集資料時就開始構建元資料,並隨著工作的進行不斷的對其進行修改。在資料整合和資料品質評估過程中瞭解到得東西也有可能是你修改最初的資料選擇。 ?? ??資料收集 確定要挖掘的資料源。可能一些外部的資料也是必須的,需要在公共資料庫中獲取(人口統計或天氣資料)或
文档评论(0)