- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树演算法资料
第8章決策樹演算法 大綱 說明決策樹演算法的概念 討論有趣決策規則的概念 用一個實例來展示決策樹的規則 探討決策樹的實際應用 展示在龐大的資料集中如何應用決策樹 在附錄中展示 See5 的決策樹分析過程 決策樹 在資料探勘的領域中,決策樹(decision trees)被認為是一種樹狀結構的規則(經常被稱為關聯性規則)。 決策樹資料探勘包含了蒐集分析者認為與決策有關的變數,以及分析這些變數對預測結果的能力。 決策樹提供了一種以規則為基礎的演算法:ID3 決策樹以啟發式方法(entropyheuristic)來選擇哪個屬性適合成為下一個節點,這是與其他資料探勘工具在選擇分支上的不同處。 決策樹的運作 表8.1 各種屬性值的組合 決策樹的運作 表8.2 第一個規則 決策樹的運作 圖8.1 貸款者的部分樹狀結構 此結構使用了分類資料,這樣型態的樹被稱為分類樹。 在做預估及預測的情況中,如果資料有連續的結果也可用樹狀結構來表示,這些樹就被稱為迴歸決策樹(regression tree)。 有趣的規則 規則的有用性是用信任度和支持度來衡量。 關聯規則的支持度(support)代表的是,在資料庫中此規則的變數在同一筆記錄出現的比率。 最小信任度(confidence level)及支持度可以用來決定由決策樹方法所產生的規則(或其他關聯性規則)是否要加以保留。 利用資料探勘找出意外的資訊(知識探索)具有極高的興趣度(interestingness)。 機器學習 機器學習(machine learning) 剛開始並沒有任何的假設,僅針對輸入資料與分類結果進行分析。 雖然不考慮專家的判斷可能會被認為效率比較差,但是卻可避免人為的偏見。 反覆的分割可以將資料分成更細微的小集合,最後的結果就是一株決策樹。 機器學習 表8.3 過去 20 位貸款者的資料 機器學習 表8.4 資料分組 機器學習 表8.5 結果 機器學習 大多數的資料探勘軟體使用熵值(entropy)衡量每個變數的區別能力。 由Koonce 所提出的熵值公式 機器學習 表8.6 年齡類別的熵值 機器學習 第一條規則 第二條規則 機器學習 表8.7 計算機率 機器學習 表8.8 重算後的機率 機器學習 第三條規則 表8.9 以三條規則預測正確率 機器學習 第四條規則 表8.10 以四條規則預測正確率 機器學習 機器演算學習規則 機器學習 表8.11 規則應用測試結果 機器學習 圖8.2 規則組的決策樹 機器學習 表8.12 規則組的錯差矩陣 決策樹的應用 存貨預測 資料探勘模式是由歸納來產生規則。 臨床醫療資料庫探勘 根據約略集合理論(rough set theory)發展一個以機率規則為基礎的歸納系統。 軟體發展品質 知識發掘的目標在於從過去發展模組的資料中發現樣式,如此可以對會發生錯誤的軟體模組有更好的預測。 軟體發展品質 第一個被CART演算法所辨認出的模式有以下規則 軟體發展品質 第二個被CART演算法所辨認出的模式有以下規則 軟體發展品質—評估 表8.13 測試資料的軟體品質錯差矩陣 表8.14 測試資料的軟體品質錯差矩陣 貸款系統資料 表8.15 針對低齡的分群資料 貸款系統資料 表8.16 針對壯年的分類資料 貸款系統資料 表8.17 針對高齡的分群資料 貸款系統資料 表8.18 組合結果 貸款系統資料 表8.19 年齡的熵值計算 貸款系統資料 第一條規則 8.20 第一規則的錯差矩陣 貸款系統資料 第二條規則 表8.21 案例的機率 貸款系統資料 表8.22 前兩個規則的錯差矩陣 表8.23 重算後的機率 貸款系統資料 第三條規則 表8.24 三條規則的期望準確率 貸款系統資料 表8.25 三條規則的錯差矩陣 機器學習演算法停在 貸款系統資料 表8.26 由均衡資料集得到的結果 保險欺騙資料 模式 表8.27 See5詐欺模式的錯差矩陣 求職者資料 使用前 300 個類別型觀察值當作訓練資料,規則如下: 求職者資料 表8.28 求職者類別型測試資料的模式錯差矩陣 求職者資料 標準化的連續型資料集以 See5 的決策樹進行分析,產生的決策樹如下: 求職者資料 表8.29 求職者分類模式的測試資料的錯差矩陣 See5決策樹分析:資料清理 表8A.1 消費資料的變數 資料清理 表8A.2 Cloth2的前5個觀察值 資料探勘程序 圖8A.1 找出要載入的資料 圖8A.2 資料已載入 資料探勘程序 圖8A.3 選擇分類的建構方式 圖8A.4 建構設定 資料探勘程序 圖8A.5 經過訓練後的 決策樹 圖8A.6 選擇使用分類 資料探勘程序 圖8A.7 輸入
原创力文档


文档评论(0)