第五章决策树演算法.PPT

下载文档 降价啦

2
0
约2.09千字
约 12页
2019-02-23 发布于天津
举报
保障服务

第五章决策树演算法.PPT

第五章決策樹演算法游政憲決策樹簡介決策樹是採用樹狀分岔的架構來產生規則，適用於所有分類的問題。 Ex: 信用卡授信、直效行銷回應、顧客流失預測等決策樹生長流程資料母體作為根節點。根據最佳變數產生分岔，產生子節點。根據每個子節點案例分佈狀況指派分類結果。決策樹持續生長，最後採用修剪技術減去不必要的規則。產生決策樹時的問題純淨度是一個抽象的概念，須以數學公式量化。每個變數產生的分岔數目不同，須將純淨度加總以評估可讓純淨度最高的變數。子節點的純淨度總合必須能和母節點的純淨度互相比較，以決定分岔是否要保留。輸入變數若為連續變數，如何快速找出最好的切割點使得純淨度最高。決策樹的分岔準則將全體資料隨機切割成訓練組及鑑效組。根據分岔準則利用訓練組資料產生第一個分岔點。利用鑑效組資料驗證第一個分岔點是否為最佳分岔，若規則可再現，則繼續進行後續分岔，若規則不能再現(過度學習)則捨棄，從剩餘變數中篩選最佳分岔變數。反覆進行以上步驟直到沒有更純淨的子結點產生為止。利用修剪技術將無效的分岔節點修剪掉。決策樹的成長觀念歸納建立決策樹是二種力量互相拉扯所產生之結果。利用變數產生分岔的成長力量透過驗證以及修剪來抑制決策樹成長抑制成長的二種力量同步抑制：透過鑑效組資料來驗證修剪事後抑制：將最後多餘的節點修剪掉鑑效組修剪法最早應用於80年代的AID 決策樹演算法。決策樹的計算常用的決策樹演算法 ID3, C4, C4.5, C5, CART, CHAID, QUEST C4.5決策樹演算法修正ID3以資訊報酬作為分岔準則的做法，改以增益比值的計算公式來取代，增益比值的觀念為當使用某變數作為分岔變數時，檢視母節點與子節點總合的純淨度變化量，使純淨度提升較多的變數就是有效變數。增益比值公式 gain ratio=(entropy before – entropy after) / split gains 增益比例=母節點與子節點的亂度差 / 分岔程度的修正量 entropy (熵) 表示亂度 (來自於化學熱力學)，用來表示物體分佈的分散狀況，亂度越高則越無規則。決策樹的計算範例-1 假設建置模型的訓練資料有100個案例，其中20%的人合約到期後三個月內會流失，則母節點亂度的計算式為： entropy母節點 = -?X log2 X X是指預測變數選項i的分率 ni / n = -(20/100) log2 (20/100) – (80/100) log2 (80/100) = 0.721928 決策樹的計算範例-2 假設再使用性別作為切割變數，則可以將母節點切成二塊(男性60人，流失率25%；女性40人，流失率12.5%)，二個子節點的亂度計算式為： entropy 分支 = ?(n 子節點 / n 母節點) * entropy 子節點 = (60/100) * (-(15/60) log2 (15/60) – (45/60) log2 (45/60)) + (40/100) * (-(5/40) log2 (5/40) – (35/40) log2 (35/40)) = 0.704913 決策樹的計算範例-3 此例中將資料由100切割為60,40二塊，其亂度變化為： Split gains = - (60/100) log2 (60/100) – (40/100) log2 (40/100) = 0.970951 gains ratio = (entropy母節點 – entropy子節點) / split gains = (0.721928 – 0.704913) / 0.970951 = 0.017524 決策樹的計算範例-4 再假設有一個變數是費率，若根據費率來作為分岔變數，則可知： A費率：30人，拆機人數3人 B費率：45人，拆機人數15人 C費率：25人，拆機人數2人請計算其增益比例值： gains ratio = (entropy母節點 – entropy子節點) / split gains = (0.721928 – 0.654477) / 1.539491 = 0.043814 gains ratio 費率 gains ratio 性別 = 費率較適合作為分岔變數經過鑑效組資料驗證之後若在容忍誤差範圍內則可成為分岔變數決策樹的計算範例-5 此範例最

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第五章决策树演算法.PPT