网站大量收购闲置独家精品文档,联系QQ:2885784924

资料采矿与商业智慧.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
资料采矿与商业智慧

資料採礦與商業智慧 第一章 資料採礦 資料採礦與商業智慧 第一章 資料採礦概論 第一章 資料採礦概論 資料採礦從遠古時代起就和人類息息相關呢! 在日積月累的生活經驗中,累積足夠的狩獵經驗後,便成為知識資料庫裡的一部份,提高狩獵命中率,節約時間、人力、以及各項資源的成本。 在這些狩獵所累積下來的經驗(如每次交易的紀錄)漸漸成為資料庫中重要的知識來源之一,也就是我們現在儲存資料庫中的資料(data)。 第一章 資料採礦概論 資料在累積的過程是十分可觀及驚人的速度,以躍進式的方式大幅成長。所以企業對於資料的態度,普遍是「患多」,而不是「患不足」。 全球最大的Vlog網站,YouTube每天有超過70萬的瀏覽人次,由全球網友共同創作的影片數量,每天新增6萬部以上。以此量計算,企業若是未提前做好資料儲存硬體擴充的規劃,將被資料爆炸所淹沒。然而相對的,對於巨量成長的資料集來說,若掌握龐大的資料,卻無法有效處理資料時,將產生資料傾銷(data dump) 的情形。 第一章 資料採礦概論 時間是另一項重要的關鍵因素。當一項資訊 (information)、一條規則 (rule)、一個類型 (pattern) 被挖掘出來的時間不同,對於企業所造成的結果可是迥然不同。 資料採礦目的即是希望在巨量的資料中,藉由統計基礎與演算法的抽絲剝繭,找出具有價值的寶藏(知識),並將適當的知識適時予適切的決策層級,謀求企業或組織的最大利益,而不致淹沒在資料的浩瀚洪流中。 1.1 何謂資料採礦? 隨著資訊科技的快速進展,讓即時處理大量資料已不再成為天方夜譚的困難任務。電腦資訊系統對資料高速處理的能力,讓資料的儲存更具有價值,而不再僅是一堆欄位與位元的組合而已。 表1.1說明了電腦資訊系統的演進過程。 1.1 何謂資料採礦? 資料採礦的熱烈蓬勃發展雖是近期的事,背後藉由成熟進展的統計學支持,才能夠更具有說服力,即使如此,但資料採礦和統計學仍有諸多差異。 1.1 何謂資料採礦? 由於資訊科技的演進與人類各種活動(如商業行為)倍加頻繁的狀態,現今資料的格式與內容已非完全使用統計方法可以處理,尤其是許多的資料包含多達數十或數百種 屬性的高維度資料,因此統計方法僅能使用抽樣的方法,選擇只用一小部分蒐集到的資料來分析。 資料採礦能夠處理的資料量非常龐大,目前處理器運算速度非常快,藉由資料儲存媒體的巨大儲存量,讓資料採礦的能力已遠遠超乎人類的計算能力,並在浩瀚且紊亂的資料流中找出有趣的類型,進而挖出有價值的金礦(知識)。 1.1 何謂資料採礦? 統計技術的能力,目前僅能處理以經過處理或整理過的資料格式,且在其中找出相關的因素與相關性,但是若資料量過多或過大時,將會造成各項的因素都呈現顯著,影響資料呈現。 1.1 何謂資料採礦? 統計技術的使用,必須配合使用者具有專業的統計背景或經過專業的統計訓練,同時預先完成研究目的與假設,同時設定統計分析方法,並在完成資料蒐集後開始依選定的統計軟體分析資料,並解釋結果。否則對於統計應用的能力將會造成困擾與障礙。 資料採礦的使用較為平易近人,使用者僅需瞭解軟體的使用方式與演算法的特點,並將計算出來的結果加以適當的解釋,或以圖形介面與表單格式讓資料更加活潑與生動。 1.1 何謂資料採礦? 麻省理工學院2001年元月號科技評論 (Technology Review) 預測,未來會改變世界的10大新興技術中,資料採礦技術名列第四,可見資料採礦技術日漸受重視的程度。 1.1 何謂資料採礦? 資料採礦是淬取知識的最佳方式之一。 Fayyad 在 1987 年就讀密西根大學參加 GM 的暑期工作時,為了能自成千上萬的維修記錄中發掘特定規則 (rule) 與類型 (pattern) ,並能夠協助相關的維修記錄人員迅速的發現、解決問題。Fayyad 所發展的 Pattern 辨識演算法,不但成了他 1991 年博士論文的主題,亦衍生出後來資料採礦的發展。 1.1 何謂資料採礦? 資料採礦最早是被應用在天文學上,藉由機械學習 (machine learning) 、人工智慧 (artificial intelligence)、統計 (statistics)、資料庫查詢 (SQL) 、類型分析 (pattern analysis)、統計 (statistics) 及專業知識 (domain know how) 等技術,在短短4小時內所發現的行星勝過20多位天文學家4年的研究成果;最後連美國軍方也開始應用這樣的技術來增強雷達解讀與辨識資料的能力。 1.1 何謂資料採礦? 資料的型態可概分為: 1. 非結構化資料 (unstructured data) :如大賣場櫃臺收銀機的產品交易記錄、人員心理輔導及晤談的記錄等等。非結

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档