我所知道的一點datamining.doc

下载文档 降价啦

3
0
约1.64万字
约 30页
2016-01-26 发布于天津
举报
版权申诉
保障服务

我所知道的一點datamining.doc

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

我所知道的一點datamining

◎我所知道的一點 Data Mining ? 1.前言 2.定義 3.方法 4.工具 5.應用 6.結論 Data mining （DM）是一個蠻當紅的專題。我們所面臨的第一個問題，便是不知道應該怎麼去翻譯這個名詞。硬譯為「資料挖掘」雖沒有大錯，但聽起來不夠高雅，也沒有學術的味道，連商業的氣味都不夠。一時之間因為實在想不出一個好詞，只好放下不談。甚麼叫 DM ？關於定義，各人的說法不一。基本上，先給你一個大的 data set ──假設你可以讀它，下面的問題是：從這裡你可以得到甚麼？極大部分──如果不是全部──的 data sets ，是已經存在的。時代不一樣了，現在數據來得既多又便宜，多到沒有人有時間去看的程度。這有一點像我們的醫療體系。早先的醫生要望聞問切，在少量的數據裡，設法組合出最好的治療方案。現在則是一個名醫，一上午要門診到一百五十個病人以上。他只能靠 algorithm 來看病：問一兩個問題，聽一兩個問題，然後開藥。這是 DM 的精神，並不是傳統的 data analysis 的精神。 ▲??TOP??? 定義不同的人有不同的看法：比較樂觀的是 Berry and Linoff (1997) 的說法： ●分析報告給你後見之明 (hindsight)●統計分析給你先機 (foresight)●DM 給你識見 (insight) 這話說得太強，我不是那麼地相信。因為這三者都是在既有的資料上做分析，在概念上應該並無軒輊，差別只是手上的 data set 大小和性質，因此，由方法的不同才有定義的不同。較負面的定義來自 Friedman (1997) ，他說 Data mining is a commercial enterprise that seeks to mine the miners 。這句話有多少真實的成分，我不深知。但是在雅虎的入口網站上鍵入「Data Mining」，立刻便找到一百五十多個網址。這是在方法論都還沒有成熟之前便已有大量的 commercial products 的情形。看起來真是商機無限。在另一方面，我卻在文獻上讀到： ?????? …… while I appreciate the importance of data mining, in practice the profit it brings has turned out to be surprisingly limited in many key businesses. (Kann 2000) 比較中肯的是 Hand et al (2000) 的說法： Data mining is the process of seeking interesting or valuable information in large data bases ▲??TOP??? 方法 Demming (1943) 曾說：「蒐集數據的目的是為了行動」。這是在數據的蒐集並不便宜的時候所說的話。現在要反過來看：已經有了一大堆數據，當初只是為了蒐集而蒐集──因為反正不貴，而且說不定有用──問這裡面可以提供怎樣的信息，能讓數據的所有人採取甚麼行動？這意思仍然是要我們用心地去看這些數據。「用心看」有兩個角度：整體的(global) 和局部 (local) 的。 3.1 Global view: 模型自整體的角度來看一個 data set ，是靠統計學裡面的抽樣就可以發揮得不錯的。抽樣的要點的 thinning ──用一組較小的、容易處理的精選的 data 來反應整體。從這裡我們可以做一大堆傳統的建模工作。但這裡面最主要的觀念是抽樣。例如 SAS 的 Enterprise Miner 中所建構出來的「Table」，就是自全部的數據中所抽樣而得。他們引以為自豪的 biased sampling ，在抽樣的理論裡行之有年，並不足奇。自抽樣的觀點來看，母體再大都不是問題──它反而使得抽樣的理論更加簡單。何況在 data base 上抽樣，成本既低，又沒有我們最頭痛的 non-response 問題。這一部分，可以說是所有我們想做的理論和方法都十分成熟，只要找一群還不錯的人，將這些已知的事物組合包裝就好。在 table 上做傳統分析，最後的結果當然是一個可以用來描繪所有數據之間的關係的模型。這是傳統的計量方式：模型是所有資料的摘要。 3.2 Local view: Pattern detection自局部的角度來看 DM，到目前為止，主要的目的是 pattern detection。這和我們常聽到的 pattern recognition 頗有不同。用雷達找飛機的工作，算是後者──我們知道飛機是我們要找的對