课件资料探勘datmining.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课件资料探勘datmining

知識發現的過程 資料前置處理 資料倉儲建立 資料探勘 樣式評估 結果展示 知識庫 使用者 多維度資料庫 資料庫 原始資料 資料收集 資料庫 * 資料收集 知識發現的第一個步驟 原始資料來源 資料庫系統 Excel表格 文字檔 網際網路 問卷調查…等等 * 資料前置處理 原因 真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導致收集到的資料,並不見得全都可用 資料探勘有80%時間花費在前置作業 包含資料的淨化、格式轉換、表格的連結等前置作業 * 資料倉儲的建立 決策支援系統的基礎 含整合資料、詳細資料、總合性(summarized)資料、歷史性資料、描述資料、綱要資料 線上分析處理(On-Line Analytical Processing,OLAP) 統計、分析功能 可由關聯式資料庫建構 Sybase、Oracle、Redbrick等 OLAP 提供多維度結構(multidimensional structures) 使用者依據不同維度,例如產品、地區、其它更透徹的觀察角度做統計 * 資料探勘 用統計與模型化的方法 資料倉儲所提供的資訊,供資料探勘做進ㄧ步挖掘,而萃取隱藏知識後,再轉到知識庫 資料探勘是知識發現的一部分 知識發現的過程會影響資料探勘的成功 * 樣式評估 樣式評估(pattern evaluation) 評估所挖掘的知識是不是真的有用 ? 過濾沒用的資訊,最後剩下有價值的知識供給使用者 範例 「天氣好,旅遊人數就多;天氣差,旅遊人數就少」,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識 * 結果展示 複雜的探勘結果要讓使用者看懂並不容易 需要圖形化介面,把有趣的知識做好的呈現 例如:Microsoft SQL Server 2005的圖形化介面非常豐富 用類似油表的燈號,讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態 * 第一章 資料探勘簡介 緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰 * 資料探勘常用的技術 傳統技術 以統計分析為代表 包括敘述統計、機率論、迴歸分析、類別資料分析 用高等統計學含括的變因分析 (factor analysis)精簡變數 用區隔分析 (discriminated analysis) 來做分類 用群集分析 (cluster analysis) 對象 大多是變數繁多且筆數龐大的資料 * 資料探勘常用的技術(續) 改良技術 類神經網路(artificial neural network) 決策樹(decision tree) 基因演算法(genetic algorithms) 規則推論法(rules induction) 模糊理論(fuzzy logic) * 類神經網路 何謂類神經網路 模仿生物神經網路,用大量人工神經元(neuron)模擬 高速的運算功能,有記憶、學習、容錯能力 運算方法 用許多參數建立一個模式,過程中需要提供資料給網路,能夠產生一組最佳結果的加權值(weights) 訓練方法-回溯 (back-propagation) 特性 預測根據不明確 對於測試資料可以做相當正確的預測,但對於真實資料的預測,準確性差 * 類神經網路運算範例 n維的輸入向量x,透過矩陣相乘(scalar product)和非線性函數映射的方法,對應到變數y mk - f 權重加總 輸入向量 x 輸出 y 活化函數 (Activation Function) 權重向量 w ? w0 w1 wn x0 x1 xn * 決策樹 何謂決策樹 用樹狀結構產生規則 內部節點(internal node)?某項屬性的測試 分支(brache)?被測試屬性當中一個可能的值 葉節點(leaf node)?布林函數 運算方法 樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構 特性 適用於所有的分類問題 不一定較準確,但容易了解 * 決策樹範例--購買筆記型電腦 * 基因演算法 1960 年代John Von Neumann 提出一個「自我複製」 (self-reproducing) 的理論,奠定了基因演算法的基礎 美國密西根大學教授John Holland 延續此觀念,於1970 年發展出簡單基因演算法(Simple Genetic Algorithms 簡稱SGA),使 基因演算法的架構有了初步的雛型 * 基因演算法(續) 基因演算法(最佳化空間搜尋法) 適合解決最佳化問題 「物競天擇」、「適者生存,不適者淘汰」 運算方法 選擇(selection)、複

文档评论(0)

181****9125 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档