- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘过程模型
資料採礦過程模型
李 洪 青
引言
資料採礦和資料採礦過程
資料採礦過程模型5A
資料採礦過程模型CRISP-DM
開發和應用資料採礦系統
結束語
??? 關鍵字:資料採礦過程,資料採礦過程模型,資料採礦系統,CRISP-DM
摘要: 資料採礦技術目前在國內正逐漸實用起來。本質上,資料採礦過程模型是爲應用資料採礦技術提供一種系統化的技術實施方法。由於資料採礦的應用領域極其廣泛、應用問題的類型也較多,因此,爲了成功的應用資料採礦技術,圍繞資料採礦過程需要涉及:問題的理解,資料的理解、收集和準備,建立資料採礦模型,評價所建的模型,應用所建的模型等一系列任務。這裏,資料採礦系統應該提供支援所有這些任務的必要手段和功能,並最大限度地爲用戶使用這些功能提供方便的介面、選擇和操作。許多資料採礦系統的開發商爲其用戶提出了一些應用資料採礦技術的“過程參考模型”,如5A、SEMMA。同時,一些區域組織和跨國集團/公司鑒於資料採礦技術在商業上的應用前景,也積極支援和推進資料採礦過程標準的研究,如歐洲委員會和相關行業的四個大公司支援的資料採礦特別興趣小組提出了“資料採礦交叉行業標準過程”(CRISP-DM)。一個專業資料採礦技術咨詢公司Two Crows還提出了自己的資料採礦模型。同時各種資料採礦系統(或軟體或工具)正面向資料採礦過程所要求的功能和方法而日趨完善。基於國內一些機構和企業正在實用資料採礦技術,或者正在開發面向某一應用領域或通用的資料採礦系統,本文對資料採礦過程的功能模型5A和方法學模型CRISP-DM作點介紹。
1.引言
?????? 從大量資料中挖掘有價資訊和知識,以提供決策依據,這在目前已不是不可能,實施的技術即是資料採礦(Data Mining)。但由於資料採礦過程並非簡單,且各種資料採礦的演算法方法所適用的問題及其能力存在差異,因此系統化、規範化資料採礦過程,以使用戶能成功的應用該技術,並開發出相應的軟體系統顯得尤爲重要。鑒於國內一些機構和企業正在實用資料採礦技術,或者正在開發面向某一應用領域或通用的資料採礦系統,本文就當前可得的一些資料採礦過程參考模型作些介紹。
2. 資料採礦和資料採礦過程
?????? 我們知道,資料採礦是一個過程,它從大量資料中抽取出有價值的資訊或知識。由於每一種資料採礦技術方法(演算法及技術要求)都有其自身的特點和實現步驟(例如,對輸入/輸出資料形式的要求、結構、參數設置、訓練、測試和模型評價方式各自有不同的要求,演算法應用/適用領域的含義和能力存在差異);資料採礦與具體應用問題的密切相關性(應用資料採礦所要達到的目標、資料收集完整程度、問題領域專家支援程度、演算法選擇等),因此,成功應用資料採礦技術、以達到目標的過程本身就是一件很複雜的事情。一般,資料採礦專案要經歷的過程包括:問題的理解,資料的理解、收集和準備、建立資料採礦模型、評價所建的模型、應用所建的模型等一系列任務。這裏,資料採礦過程的系統化、工程化方法學和支援系統(軟體或工具)對解決應用問題起著至關重要的作用。爲了抽象系統化方法,人們提出了一些資料採礦過程的參考模型或標準,如SPSS提出的5A (Assess-Access-Analyze-Act-Automate), SAS提出的SEMMA (Sample-Explore-Modify-Model-Assess);資料採礦特別興趣小組提出的“資料採礦交叉行業標準過程”CRISP-DM(CRoss-Industry Standard Process for Data Mining),以及專業的資料採礦技術咨詢公司Two Crows提出的模型 (階段包括:Define Business Problem-Build Data Mining Database-Explore Data-Prepare Data for Modeling-Building Model- Evaluation Model-Deploy Model and Result)。在這些模型中,5A強調的是支援資料採礦過程的工具應具有的功能和能力,SEMMA強調的是結合其工具的應用方法,CRISP-DM則從方法學的角度強調實施資料採礦專案的方法和步驟,並獨立於每種具體資料採礦演算法和資料採礦系統,Two Crows則是從其自身理解的角度借鑒前述方法,並在其上加以改進而提出的模型。比較而言,由於5A和CRISP-DM分別從支援功能和方法學角度描述了資料採礦過程,因此對介紹資料採礦過程較爲合適。
3. 資料採礦過程模型5A
?????? 5A模型認爲任何資料採礦方法學都由5個基本元素組成,即Assess, Access, Analyze, Act, Automate。它們的含義是:
Assess: 正確、徹底的評價任務的
您可能关注的文档
- 数学科六年级学生学习困难探究.ppt
- 数学观摩教案-二重国小.doc
- 数学课件模版2003版.ppt
- 数据库入侵检测技术.ppt
- 数的规律.ppt
- 数量折扣订购模式.ppt
- 数量条款的规定.ppt
- 數值分析.doc
- 文件下载0717绩效考核作业说明会简报档-商业优化人才培训计画.ppt
- 文件-Piazza.ppt
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)