国立联合大学资讯管理学系资料探勘课程(陈士杰) 决策树.ppt

下载文档 降价啦

5
0
约5.95千字
约 36页
2017-08-11 发布于天津
举报
版权申诉
保障服务

国立联合大学资讯管理学系资料探勘课程(陈士杰) 决策树.ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

国立联合大学资讯管理学系资料探勘课程(陈士杰) 决策树

? 分類 VS. 預測分類︰預測分類標號（或離散值）根據訓練資料集和類標號屬性，構建模型來分類現有資料，並用來分類新資料預測︰建立連續函數值模型，比如預測空缺值典型應用信譽證實目標市場醫療診斷性能預測分類(Classification) 分類的意義 ? 資料分類: 一個兩步過程第一步，建立一個模型，描述預定資料類集和概念集假定每個元組屬於一個預定義的類，由一個類標號屬性確定基本概念訓練資料集︰由為建立模型而被分析的資料元組形成訓練樣本︰訓練資料集中的單個樣本（元組）學習模型可以用分類規則、決策樹或數學公式的形式提供第二步，使用模型，對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本，將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立於訓練樣本集，否則會出現“過分適應資料”的情況第一步: 建立模型第二步: 用模型進行分類 1.模型建立(Model Building) 2.模型評估(Model Evaluation) 3.使用模型(Use Model) Example 分類的目的 1.尋找影響某一重要變項的因素。 2.了解某一族群的特徵。 3.建立分類規則。例如: 行銷策略(市場區隔) 銀行(核卡額度) 醫療診斷(肝癌,SARS) ? 有指導的學習 VS. 無指導的學習有指導的學習（用於分類）模型的學習在被告知每個訓練樣本屬於哪個類別的“指導”下進行新資料使用訓練資料集中得到的規則進行分類無指導的學習（用於聚類）每個訓練樣本的類別編號是未知的，要學習的類別集合或數量也可能是事先未知的透過一系列的度量、觀察來建立資料中的類別編號或進行聚類 ? 準備分類和預測的資料透過對資料進行預處理，可以提升分類和預測過程的準確性、有效性和可伸縮性資料清理消除或減少噪音，處理空缺值，從而減少學習時的混亂相關性分析資料中的有些屬性可能與當前任務不相關；也有些屬性可能是冗餘的；刪除這些屬性可以加快學習步驟，使學習結果更精確資料變換可以將資料概化到較高層概念，或將資料進行規範化 ? 比較分類方法使用下列標準比較分類和預測方法預測的準確率︰模型正確預測新資料的類編號的能力訓練測試法(training-and-testing) 交互驗證法(cross-validation) 速度︰產生和使用模型的計算花銷健壯性︰給定噪音資料或有空缺值的資料，模型正確預測的能力可伸縮性︰對大量資料，有效的構建模型的能力可解釋性︰學習模型提供的理解和洞察的層次 ? 用決策樹歸納分類什麼是決策樹？類似於流程圖的樹架構每個內部節點表示在一個屬性測試每個分枝代表一個測試輸出每個樹葉節點代表類別或類別分佈決策樹的生成由兩個階段組成決策樹構建開始時，所有的訓練樣本都在根節點遞迴的透過選定的屬性，來劃分樣本（必須是離散值）樹剪枝許多分枝反映的是訓練資料中的噪音和孤立點，樹剪枝試圖檢測和剪去這種分枝決策樹的使用︰對未知樣本進行分類透過將樣本的屬性值與決策樹相比較決策樹(Decision Tree)之介紹概念“buys_computer”的決策樹基本的決策樹學習演算法基本的演算法概念: 將原始資料分成兩組，一部分為訓練資料，一部分為測試資料使用訓練資料來建立決策樹，而在每一個內部節點，則依據資訊理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據，又稱節點分割 (Splitting Node) 使用測試資料來進行決策樹修剪將以上1~3步驟不斷遞迴進行，直到所有的新內部節點都是樹葉節點為止，且: 該群資料中，每一筆資料都已經歸類在同一類別下該群資料中，已經沒有辦法再找到新的屬性來進行節點分割該群資料中，已經沒有任何尚未處理的資料採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表決策樹歸納策略樹以代表訓練樣本的單個節點開始如果樣本都在同一個類別，則該節點成為樹葉，並用該類別標記否則，算法使用基於熵的度量: 資訊獲利作為指導訊息，選擇能夠最好的將樣本分類的屬性；該屬性成為節點的“測試”或“判定”屬性。（使用分類屬性）對測試屬性每個已知的值，創建一個分支，並以此劃分樣本算法使用同樣的過程，遞迴的形成每個劃分上的樣本決策樹。一旦一個屬性出現下一個節點上，就不在該節點的任何子節點上出現遞迴劃分步驟停止的條件給定節點的所有樣本屬於同一類沒有剩餘屬性可以用來進一步劃分樣本: 使用多數表決沒有剩餘的樣本最佳分類屬性 ID3演算法的核心問題是選取樹中的每個節點所要測試的屬性。我們希望選擇的