决策树的重要性.pptVIP

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树的重要性.ppt

決 策 樹 分類法 中原 資管所 李維平 老師 決策樹的重要性 在商業界最常用的方法之一 Decision Tree 之意義 Decision Tree 之意義 If We have much money AND We are buying a gift for an adult THEN Buy a car If We have much money AND We re buying a gift for a child THEN Buy a computer 名詞解釋 根節點 葉節點 內部節點 決策樹本質:是一個分類器 收入 年齡 職業 … 決策樹 決策樹優點:可以萃取分類規則 例如:銀行新客戶的信用分類問題 決策樹例子 例子: 舊客戶購買之歷史資料 決策樹例子 決策樹 目標屬性:購買產品類別 輸入屬性:性別、學院、年級 混亂度 定義:一群物件的 目標屬性 混亂的程度 三種計算方式: P1 * P2 [0~1/4] P1 :這群物件目標屬性值為 1的機率 P2 :這群物件目標屬性值為 2的機率 Min (P1 , P2) [0~1/2] Entropy: - P1log2 P1 - P2log2 P2 [0~1] 練習: 計算混亂度 決策樹精神 挑選一輸入屬性,能將目標屬性的混亂度降到最低 決策樹演算法 (Step1) 選擇一輸入屬性,將所有objects作分類 (Step2) 計算分類後之 平均混亂度 (Step3) 選擇能使混亂度降得最低的屬性,作為節點之判別屬性 (Step4) 反覆(Step1~3) ,直到停止條件 停止條件 當葉節點滿足下列條件 即停止 1. 所有物件的目標屬性,皆為同一類 2. 沒有輸入屬性可以降低混亂度 決策樹模型: 三階段模式 訓練階段 將決策樹訓練出來 測試階段 測試決策樹的準確性 運用階段 可對一未知資料作分類 Decision Tree 之準確率 利用 ”測試資料” 作測試 練習 決策樹相關演算法 ID3 : (前面所教) Quinlan 1979 輸入屬性為離散 C4.5 : (IBM Mining 軟體所採用) Breiman 1984 輸入屬性可為連續 決策樹 mining 過程 A 決定想解決的問題 B 決定目標屬性與輸入屬性 C 決定資料範圍 D 資料前處理 或許需要將連續變數改為”離散”變數 E 建構決策樹,並解釋結果 F 若無法解釋,應回到 A 或 B 再思考 決策樹專案 注意事項 (1/2) 目標變數應為 ”離散(類別)” 變數 值不能太多 輸入變數 關聯性太高不適合使用 預測所得高低: 輸入變數為 年齡, 職業, 繳稅高低 預測打擊率高低: 輸入變數為 年齡, 守備位置, 長打率, 月薪 決策樹專案 注意事項 (2/2) 目標屬性與輸入屬性關聯性太低 例如: 樂透獎 輸入:年,月,週,日 輸出:樂透號碼 作業 (碩專) 時間:2 週 請於 3 / 24 (一)前,將報告 mail 給老師與上課成員 報告請用Word檔撰寫,約3~6頁 應說明每位組員的貢獻 若有問題詢問,每位組員皆可回答 附錄  下週報告(大學部) 時間:8分鐘 討論:5分鐘 請於 4 / 8 (日)前 mail 老師與上課成員 應說明每位組員的貢獻 若有問題詢問,每位組員皆可回答 報告(大學部) 下週: 請報告關聯規則實作作業 外系同學如何上機練習 * * Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No No No No No No No No No No No No No No No No No No Yes 有弦? 用吹的? 彎如弓的? 演奏時要用下巴夾的? 用彈的? 有鍵盤的? 木管樂器? 有簧片? 有雙簧片? 銅管樂器? 常用於通俗樂器中? 比演奏者高? 常用於通俗樂器中? 有十根弦以上? 打擊樂器? 有弦? 鼓棒? 有音鎚的? 曲型的? 筆直的? 彈奏? 小提琴 中提琴 低音提琴 大提琴 不知道 豎琴 詩琴 揚琴 不知道 電子樂器 風琴 Yes 撥弦古鋼琴 鋼琴 Yes No Yes No 分類器 好 普通 差 銀行客戶: 信用分類 “信用”為 目標屬性: 決 策 樹 X1 X2 Y 1:信用好, 2:信用差 收入 年齡 X2 X1 2 2 2 2 2 2 2 1 1 1 1 1 30 7万 5万 3万 年齡 111 111 222 2222 年齡30 年齡30 收入 11 2222 1111 222 收入5万 收入5万 單純資料 混亂資料 手機 人文 女 4

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档