国立联合大学资讯管理学系资料探勘课程(陈士杰) 决策树.ppt

国立联合大学资讯管理学系资料探勘课程(陈士杰) 决策树.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国立联合大学资讯管理学系资料探勘课程(陈士杰) 决策树

? 分類 VS. 預測 分類︰ 預測分類標號(或離散值) 根據訓練資料集和類標號屬性,構建模型來分類現有資料,並用來分類新資料 預測︰ 建立連續函數值模型,比如預測空缺值 典型應用 信譽證實 目標市場 醫療診斷 性能預測 分類(Classification) 分類的意義 ? 資料分類: 一個兩步過程 第一步,建立一個模型,描述預定資料類集和概念集 假定每個元組屬於一個預定義的類,由一個類標號屬性確定 基本概念 訓練資料集︰由為建立模型而被分析的資料元組形成 訓練樣本︰訓練資料集中的單個樣本(元組) 學習模型可以用分類規則、決策樹或數學公式的形式提供 第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立於訓練樣本集,否則會出現“過分適應資料”的情況 第一步: 建立模型 第二步: 用模型進行分類 1.模型建立(Model Building) 2.模型評估(Model Evaluation) 3.使用模型(Use Model) Example 分類的目的 1.尋找影響某一重要變項的因素。 2.了解某一族群的特徵。 3.建立分類規則。 例如: 行銷策略(市場區隔) 銀行(核卡額度) 醫療診斷(肝癌,SARS) ? 有指導的學習 VS. 無指導的學習 有指導的學習(用於分類) 模型的學習在被告知每個訓練樣本屬於哪個類別的“指導”下進行 新資料使用訓練資料集中得到的規則進行分類 無指導的學習(用於聚類) 每個訓練樣本的類別編號是未知的,要學習的類別集合或數量也可能是事先未知的 透過一系列的度量、觀察來建立資料中的類別編號或進行聚類 ? 準備分類和預測的資料 透過對資料進行預處理,可以提升分類和預測過程的準確性、有效性和可伸縮性 資料清理 消除或減少噪音,處理空缺值,從而減少學習時的混亂 相關性分析 資料中的有些屬性可能與當前任務不相關;也有些屬性可能是冗餘的;刪除這些屬性可以加快學習步驟,使學習結果更精確 資料變換 可以將資料概化到較高層概念,或將資料進行規範化 ? 比較分類方法 使用下列標準比較分類和預測方法 預測的準確率︰模型正確預測新資料的類編號的能力 訓練測試法(training-and-testing) 交互驗證法(cross-validation) 速度︰產生和使用模型的計算花銷 健壯性︰給定噪音資料或有空缺值的資料,模型正確預測的能力 可伸縮性︰對大量資料,有效的構建模型的能力 可解釋性︰學習模型提供的理解和洞察的層次 ? 用決策樹歸納分類 什麼是決策樹? 類似於流程圖的樹架構 每個內部節點表示在一個屬性測試 每個分枝代表一個測試輸出 每個樹葉節點代表類別或類別分佈 決策樹的生成由兩個階段組成 決策樹構建 開始時,所有的訓練樣本都在根節點 遞迴的透過選定的屬性,來劃分樣本 (必須是離散值) 樹剪枝 許多分枝反映的是訓練資料中的噪音和孤立點,樹剪枝試圖檢測和剪去這種分枝 決策樹的使用︰對未知樣本進行分類 透過將樣本的屬性值與決策樹相比較 決策樹(Decision Tree)之介紹 概念“buys_computer”的決策樹 基本的決策樹學習演算法 基本的演算法概念: 將原始資料分成兩組,一部分為訓練資料,一部分為測試資料 使用訓練資料來建立決策樹,而在每一個內部節點,則依據資訊理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據,又稱節點分割 (Splitting Node) 使用測試資料來進行決策樹修剪 將以上1~3步驟不斷遞迴進行,直到所有的新內部節點都是樹葉節點為止,且: 該群資料中,每一筆資料都已經歸類在同一類別下 該群資料中,已經沒有辦法再找到新的屬性來進行節點分割 該群資料中,已經沒有任何尚未處理的資料 採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表 決策樹歸納策略 樹以代表訓練樣本的單個節點開始 如果樣本都在同一個類別,則該節點成為樹葉,並用該類別標記 否則,算法使用基於熵的度量: 資訊獲利作為指導訊息,選擇能夠最好的將樣本分類的屬性;該屬性成為節點的“測試”或“判定”屬性。(使用分類屬性) 對測試屬性每個已知的值,創建一個分支,並以此劃分樣本 算法使用同樣的過程,遞迴的形成每個劃分上的樣本決策樹。一旦一個屬性出現下一個節點上,就不在該節點的任何子節點上出現 遞迴劃分步驟停止的條件 給定節點的所有樣本屬於同一類 沒有剩餘屬性可以用來進一步劃分樣本: 使用多數表決 沒有剩餘的樣本 最佳分類屬性 ID3演算法的核心問題是選取樹中的每個節點所要測試的屬性。 我們希望選擇的

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档