- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
期中报告 Data Mining ( PartⅠ)
期中報告 ─ Data Mining ( PartⅠ)
電機四 葉書蘋
為什麼需要Data Mining?
Data Mining 之價值
Data Mining 是近幾年來相當熱門的一項課題,有相當多的研究以及相關的產業,從下面幾項數據,便可大概知道Data Mining的前瞻性和熱門的程度:
Times時代雜誌預估: “Data Mining將是21世紀最熱門之五大新興行業“
麻省理工學院2000年 元月號”科技評論” (Technology Review) 預測:
“未來會改變世界的十大新興科技中: Data Mining 名列前矛“
IDC 於 2002年3月預測:
“Data Mining 市場未來5年將大幅成長將於短短四年成長200%”
儘管Data Mining這麼樣的炙手可熱,然而對我們來說,Data Mining到底是什麼,其實還是一知半解,於是我們就特別針對這一個特別的題目進行了一番研究。
資料庫簡單的說就是將分散在各處的資料收集起來不單只為某一使用者而設定,可提供多數人使用必須依靠某一格式與方法,不因使用者程式之不同而異利用資料庫管理系統(DBMS)來負責統一控制,對於程式設計師及使用者都非常方便資料庫結構階層式資料庫(Hierarchical Database)又稱為樹狀結構 網狀式資料庫(Network Database)關聯式資料庫(Relational Database)
資料庫和Data mining的差別:
Data mining是以它的工具幫您做探索,而資料庫卻是人工探索。資料庫是要自己做假設,但Data mining卻會幫您假設。Data mining有人工智慧的技術,而資料庫沒有。資料庫是無法挖掘出隱藏的資料,而Data mining卻可以“資料雖多,了解卻少”,世界上的資訊已經人的速度在增加,然而我們卻沒能從這一些資訊中看出我們所需要的知識(knowledge),想一想,一家空有數十萬筆用戶資料的信用卡公司,如果不能從這些資料中,觀察甚至預測出用戶的消費型態,進而提升未來的業績,不是很可惜嗎?如果不懂得運用,再大筆的資料都只是堆廢紙,而Data Mining就是一項能從廢紙堆中提煉出金礦的技術。使用Data Mining,利用電腦程式自動或半自動的分析資料,進而做出預測,增加資料的價值,這就是為什麼需要Data Mining最重要的原因吧!
何謂Data Mining
?中文翻譯: “資料採礦”
?書上的定義:
“Data mining is the process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules.” Mastering Data Mining by M. Berry/ G. Linoff--
Data Mining的中文譯名為「資料採礦」或「資料探勘」。顧名思義,就是在一大群資料(礦坑)中,找到我們所需要的資料(礦)。更嚴謹地說,Data Mining是幫助我們在一大群資料中找出pattern,賦予原本雜亂無章的資料意義,進而從中歸納出理論,而這些理論必須要有助於我們解決問題。
基本上,Data Mining是用來將你的資料中隱藏的資訊挖掘出來,所以 Data Mining 其實是所謂的 Knowledge Discovery 的一部份,Data Mining 使用了許多統計分析與 Modeling 的方法,資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。 Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。
Data Mining的程序
Data Miming 的工具是利用資料來建立一些模擬真實世界的模式(Model),利用這些模式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模式有兩種用處,第一,瞭解資料的特徵與關係可以提供你做決策所需要的資訊。第二,資料的特徵可以幫助你做預測。
Data Mining最重要的用途,就是能從現有的資料中,找出隱藏其中有意義的部分,進而解決目前企業運作上的瓶頸,進行的流程圖大致可以右圖表示。
我們可以拿 Customer Profiling作為一個例子。所謂的Customer Profiling,希望找出客戶的一些共同的特徵,
文档评论(0)