资料采矿过程CRISP-DM.doc

资料采矿过程CRISP-DM.doc

資料採礦過程CRISP -DM 在實施資料採礦之前,先制定採取什麽樣的步驟,每一步都做什麽,達到什麽樣的目標是必要的,有了好的計劃才能保證資料採礦有條不紊的實施並取得成功。很多軟體供應商和資料採礦顧問公司投提供了一些資料採礦過程模型,來指導他們的用戶一步步的進行資料採礦工作。比如SPSS的5A--評估(Assess),訪問(Access),分析(Analyze),行動(Act),自動化(Automate),和SAS的SEMMA--採樣(Sample),探索(Explore),修正(Modify),建模(Model),評估(Assess)。 最近,一些軟體供應商和用戶組織成立了行業協會,包括NCR Systems Engineering Copenhagen(丹麥)Daimler-Benz AG(德國)SPSS/Internal Solutions Ltd.(英國),和OHRA Verzekeringen en Bank Grep B.V(荷蘭)。這個組織的目的就是建立跨行業資料採礦過程標準(CRISP-DM),在1999年9月的時候CRISP-DM仍在建立之中。 我們下面詳細討論Two Crows公司的資料採礦過程模型,他與正在建立的CRISP-DM有許多相似之處。 資料採礦過程模型 雖然我們把各個步驟按順序排列,但要注意資料採礦過程並不是線性的—要取得好的結果就要不斷反復重復這些步驟。比如在“分析資料”時你可能覺得在“建立資料採礦資料庫”時作的不夠好,要往裏面添加一些新的資料。 這些基本資料採礦步驟包括: 1.???????? 定義商業問題 2.???????? 建立資料採礦模型 3.???????? 分析資料 4.???????? 準備資料 5.???????? 建立模型 6.???????? 評價模型 7.???????? 實施 1.???????? 定義商業問題。在開始知識發現之前最先的同時也是最重要的要求就是了解的你的資料和業務問題。如果事先沒有這種瞭解,沒有任何演算法,不管他有多麽複雜玄妙,能夠爲你提供有價值的結果,即使有也難以使人信賴他。缺少了這些背景知識,你就沒辦法明確定義要解決的問題,不能爲挖掘準備資料,也很難正確的解釋得到的結果。要想充分發揮資料採礦的價值,必須要對你的目標有一個清晰明確的定義,即決定到底想幹什麽。比如你說你想提高直接郵件推銷的用戶回應時,你想做的可能是“提高用戶回應率”,也可能是“提高一次用戶回應的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,你必須做出決定。有效的問題定義還應該包含一個對你的知識發現專案得到結果進行衡量的標準。當然還應該有整個專案預算和理性的解釋。 2.???????? 建立資料採礦庫。連同下面的兩個步驟,這三步構成了資料預處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時間和精力還多。一旦你從資料採礦的結果中學到一些什麽之後,你很可能要修改資料以得到更好得結果,因此就需要把資料準備和資料採礦不斷的反復進行。資料準備工作大概要花去整個資料採礦專案的50%-90%的時間和精力。 應該把要挖掘的資料都收集到一個資料庫中。注意這並不是說一定要使用一個資料庫管理系統。根據要挖掘的資料量的大小、資料的複雜程度、使用方式的不同,有時一個簡單的平面文件或試算表就足夠了。 一般來說,直接在公司的資料倉庫上進行資料採礦是不合適的。你最好建立一個獨立的資料集。資料採礦會使你成爲資料倉庫非常活躍的用戶,這可能會帶來一些資源申請上的問題。你需要經常把許多表連接在一起,訪問資料倉庫的細節資料。一個簡單的試驗在資料倉庫內都要很多步才能完成。 大部分情況下你肯定需要修改要挖掘的資料。而且還會遇到把企業外部的資料拿到資料倉庫內和在原有的表中增加新的欄位的情況。其他的資料採礦用戶可能也要對資料倉庫進行與您相似或完全不同的修改。而對資料倉庫管理員來說,這恐怕是他最不願意遇到的事情。 需要建立獨立的資料採礦庫的另一個理由是,資料倉庫可能不支援你要對資料進行各種複雜分析所需的資料結構。這包括對資料進行統計查詢,多維分析,和各種複雜的圖表和視覺化。 最後,你可能希望把這些要挖掘的資料存貯在與公司的資料倉庫在物理設計上不同的DBMS上。人們越來越傾向於使用DBMS本身很好的支援資料採礦的資料庫程式,這樣能使資料採礦工作進行的更容易一些。當然如果你的資料倉庫允許你建立一個在邏輯上獨立的資料庫並且在計算資源上也足夠的話,那麽在他上面進行資料採礦也是可以的。 可以把建立資料採礦庫分成下面幾個部分: a.???????? 資料收集 b.???????? 資料描述 c.???????? 選擇 d.???????? 資料品質評估和資料清理 e.???????? 合併與整合 f.????????? 構建元資料 g

文档评论(0)

1亿VIP精品文档

相关文档