- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
決策樹演算法
第五章 分類規則法 本章大綱 第一節 分類規則法的概念 第二節 決策樹歸納法 第三節 貝氏分類 第四節 其他分類規則法 第一節 分類規則法的概念 何謂分類規則法 分類規則法技術的分類 何謂分類規則法 分類法(Classification)是針對欲處理且未分類的資料集合,根據已知類別(Class)的物件(Instance)集合,將欲處理資料依據其屬性(Attributes)去完成分類的過程,並冀望能學習分類的規則,提供未來能自動分類之用。 圖5.1 建立分類規則與分類器 圖5.2 進行新資料的分類 分類規則法技術的分類 決策樹 決策樹是一種語意樹(Semantic Tree),與資料結構中的樹狀結構相仿,皆擁有根(Root)、節點(Node)以及樹葉(Leaf)等結構。 而每一節點都有一個分類的測試條件,就如「IF-THEN」的控制結構,利用測試結果來決定資料將分類於此節點的哪一棵子樹(Branch),並繼續作為分類的條件和最後的決策。 分類規則法技術的分類(c2) 貝氏網路分類 貝氏網路分類法可分為樸素貝氏分類與貝氏信念網路兩種。 樸素貝氏分類 又稱為天真貝氏分類。 主要是用在已知欲分類的類別以及個數的情況下,進行分類的動作。 貝氏信念網路 為一有向量的非循環圖形。 由節點 (Nodes)與連結線(Edges)所組成,而每個節點都有一組狀態機率表 (Condition Probability Tables)。 分類規則法技術的分類(c3) 其他技術 許多是屬於人工智慧技術 案例式推導 k-最鄰近分類法 模糊集合方法 倒傳遞類神經網路 遺傳演算法 圖5.3 分類規則法技術一覽表 第二節 決策樹歸納法 建構決策樹 決策樹演算法 決策樹修剪 萃取分類規則 決策樹的主要功能 決策樹的主要功能,是藉由分類已知的事例來建立一樹狀結構,並從中歸納出事例裡的某些規律;而產生出來的決策樹,也能利用來做樣本外的預測。 圖5.4 預估「是否會玩網路遊戲」決策樹 建構決策樹 決策樹的歸納演算法 將訓練樣本的原始資料放入決策樹的樹根。 將原始資料分成兩組,一部份為訓練組資料,另一部份為測試組資料。 使用訓練資料來建立決策樹,而在每一個內部節點,則依據資訊理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據。 使用測試資料來進行決策樹修剪,修剪到決策樹的每個分類都只有一個節點,以提升預測能力與速度。 將以上(1)-(4)步驟不斷遞迴進行,直到所有的新內部節點都是樹葉節點為止。 建構決策樹(c2) 決策樹停止再往下衍生的特例情形 該群資料中,每一筆資料都已經歸類在同一類別下。 該群資料中,已經沒有辦法再找到新的屬性來進行節點分割。 該群資料中,已經沒有任何尚未處理的資料。 決策樹演算法 ID3 (Iterative Dichotomizer 3) 可處理離散型資料。 兼顧高分類正確率以及降低決策樹的複雜度。 必須將連續型資料作離散化的程序。 CART (Classification and Regression Trees) 是以每個節點的動態臨界值作為條件判斷式。 CART藉由單一輸入的變數函數,在每個節點分隔資料,並建立一個二元決策樹 。 CART是使用 Gini Ratio來衡量指標,如果分散的指標程度很高,表示資料中分佈許多類別,相反的,如果指標程度越低,則代表單一類別的成員居多。 決策樹演算法(c2) C4.5 改良自ID3演算法。 先建構一顆完整的決策樹,再針對每一個內部節點,依使用者定義的預估錯誤率(Predicted Error Rate)來作決策樹修剪的動作。 不同的節點,特徵值離散化結果是不相同的。 CHAID (Chi-Square Automatic Interaction Detector) 利用卡方分析(Chi-Square Test)預測二個變數是否需要合併,如能夠產生最大的類別差異的預測變數,將成為節點的分隔變數。 計算節點中類別的 P值 (P-Value),以P值大小來決定決策樹是否繼續生長,所以不需像C4.5或CART要再做決策樹修剪的動作。 表5.1 決策樹演算法之比較 決策樹修剪 當原始訓練資料呈現不完整、稀疏或是含有雜訊時,則容易造成決策樹「超適」(Overfitting)的問題,以致於所產生的決策樹太過於複雜,因此必須再做適當的修剪。 發生超適的主要原因有兩個: 屬性太多:演算法剛好選擇到和類別不相關的屬性。 偏差(Bias) :每個演算法都有屬性選擇的偏好順序,因此可能發生演算法偏好的屬性,卻和類別毫不相關。 圖5.5
文档评论(0)