決策樹演算法.pptVIP

下载本文档

4
0
约6.1千字
约 49页
2016-01-19 发布于天津
举报
版权申诉

決策樹演算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

決策樹演算法

第五章分類規則法本章大綱第一節分類規則法的概念第二節決策樹歸納法第三節貝氏分類第四節其他分類規則法第一節分類規則法的概念何謂分類規則法分類規則法技術的分類何謂分類規則法分類法(Classification)是針對欲處理且未分類的資料集合，根據已知類別(Class)的物件(Instance)集合，將欲處理資料依據其屬性(Attributes)去完成分類的過程，並冀望能學習分類的規則，提供未來能自動分類之用。圖5.1 建立分類規則與分類器圖5.2 進行新資料的分類分類規則法技術的分類決策樹決策樹是一種語意樹(Semantic Tree)，與資料結構中的樹狀結構相仿，皆擁有根(Root)、節點(Node)以及樹葉(Leaf)等結構。而每一節點都有一個分類的測試條件，就如「IF-THEN」的控制結構，利用測試結果來決定資料將分類於此節點的哪一棵子樹(Branch)，並繼續作為分類的條件和最後的決策。分類規則法技術的分類(c2) 貝氏網路分類貝氏網路分類法可分為樸素貝氏分類與貝氏信念網路兩種。樸素貝氏分類又稱為天真貝氏分類。主要是用在已知欲分類的類別以及個數的情況下，進行分類的動作。貝氏信念網路為一有向量的非循環圖形。由節點 (Nodes)與連結線(Edges)所組成，而每個節點都有一組狀態機率表 (Condition Probability Tables)。分類規則法技術的分類(c3) 其他技術許多是屬於人工智慧技術案例式推導 k-最鄰近分類法模糊集合方法倒傳遞類神經網路遺傳演算法圖5.3 分類規則法技術一覽表第二節決策樹歸納法建構決策樹決策樹演算法決策樹修剪萃取分類規則決策樹的主要功能決策樹的主要功能，是藉由分類已知的事例來建立一樹狀結構，並從中歸納出事例裡的某些規律；而產生出來的決策樹，也能利用來做樣本外的預測。圖5.4 預估「是否會玩網路遊戲」決策樹建構決策樹決策樹的歸納演算法將訓練樣本的原始資料放入決策樹的樹根。將原始資料分成兩組，一部份為訓練組資料，另一部份為測試組資料。使用訓練資料來建立決策樹，而在每一個內部節點，則依據資訊理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據。使用測試資料來進行決策樹修剪，修剪到決策樹的每個分類都只有一個節點，以提升預測能力與速度。將以上(1)-(4)步驟不斷遞迴進行，直到所有的新內部節點都是樹葉節點為止。建構決策樹(c2) 決策樹停止再往下衍生的特例情形該群資料中，每一筆資料都已經歸類在同一類別下。該群資料中，已經沒有辦法再找到新的屬性來進行節點分割。該群資料中，已經沒有任何尚未處理的資料。決策樹演算法 ID3 (Iterative Dichotomizer 3) 可處理離散型資料。兼顧高分類正確率以及降低決策樹的複雜度。必須將連續型資料作離散化的程序。 CART (Classification and Regression Trees) 是以每個節點的動態臨界值作為條件判斷式。 CART藉由單一輸入的變數函數，在每個節點分隔資料，並建立一個二元決策樹。 CART是使用 Gini Ratio來衡量指標，如果分散的指標程度很高，表示資料中分佈許多類別，相反的，如果指標程度越低，則代表單一類別的成員居多。決策樹演算法(c2) C4.5 改良自ID3演算法。先建構一顆完整的決策樹，再針對每一個內部節點，依使用者定義的預估錯誤率(Predicted Error Rate)來作決策樹修剪的動作。不同的節點，特徵值離散化結果是不相同的。 CHAID (Chi-Square Automatic Interaction Detector) 利用卡方分析(Chi-Square Test)預測二個變數是否需要合併，如能夠產生最大的類別差異的預測變數，將成為節點的分隔變數。計算節點中類別的 P值 (P-Value)，以P值大小來決定決策樹是否繼續生長，所以不需像C4.5或CART要再做決策樹修剪的動作。表5.1 決策樹演算法之比較決策樹修剪當原始訓練資料呈現不完整、稀疏或是含有雜訊時，則容易造成決策樹「超適」(Overfitting)的問題，以致於所產生的決策樹太過於複雜，因此必須再做適當的修剪。發生超適的主要原因有兩個：屬性太多：演算法剛好選擇到和類別不相關的屬性。偏差(Bias) ：每個演算法都有屬性選擇的偏好順序，因此可能發生演算法偏好的屬性，卻和類別毫不相關。圖5.5