演算法的测试.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
演算法的测试

資料分類範例三 節點【C5.0】檔案 RiskNew.xlsx 12470 records 10 fields 模型的部署 部署(deployment)就是將模型運用在新資料上,亦即先訓練舊資料再以新資料預測 舊資料檔Risk有4117 筆資料,已有分類好的RISK欄位,某欄名storecar,loan範圍0-3 新資料檔RiskNew有12470筆資料,但沒有RISK欄位,storecards需改名成storecar ,又如果有一筆資料loan=5? 因為新資料檔沒有RISK欄位,因此產生的模型就無法產生混淆矩陣和正確率分析的結果 訓練Risk後再以RiskNew預測模型 所產生模型的表格 模型的分配圖 模型的直方圖 資料分類範例四 節點【CRT】檔案wdbc.txt 569 records 32 fields 分類迴歸樹基本概念 分類迴歸樹(CR Tree, Classification and Regression Tree)由Breiman在1984年提出 CR Tree以反覆運算的方式,由根部開始反覆建立二元分支樹,直到樹節點中的同質性達到某個標準,或觸發反覆運算終止條件為止 CR Tree的輸出欄位既可以是數值型資料,也可以是類別型資料 乳腺癌醫學診斷應用 本範例檔wdbc.txt的乳腺癌(Breast Cancer Diagnostic)的診斷資料,取自美國加州大學歐文分校的機械學習資料庫/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29 Wisconsin大學臨床研究中心於1995年蒐集569例乳腺癌症的病患實際診斷資料,診斷的方式是對於可疑的乳腺腫塊使用細針穿刺的技術 (Fine Needle Aspirate, FNA)蒐集數位化圖像並加以計算 乳腺癌醫學診斷欄位說明 wdbc.txt的欄位計有32項,分別是 1. 識別號碼(ID number):識別號碼 2. 診斷結果(Diagnosis):惡性(M = malignant)、良性(B = benign) 3-32. 這30項資料是計算每一個細胞核的真實資料測量值,包含以下的內容:半徑(radius)、紋理(texture)周長(perimeter)、範圍(area)、平滑度(smoothness)、緊密度(compactness)、凹陷部分的程度(concavity)、凹陷部分的數量(concave points) 、對稱度(symmetry) 、碎型維度(fractal dimension) 【類型】節點和【CRT】節點 檢視決策樹及預測變數重要性 由左至右的決策樹模型 輸出的矩陣和表格 正確率分析 改用【 C5.0】節點預測效果更好 * * 資料探勘與Modeler使用介紹 資料分類-C5.0和CRT模型 資料集群-K-means 和模型評估 4 2 3 1 SPSS Modeler資料探勘應用基礎 資料關聯-Apriori和Sequence 分類範例一:鳶尾花分類應用 分類範例二:客戶信用風險評估 分類範例四:乳腺癌醫學診斷應用 4 2 3 1 2.資料分類-C5.0和CRT模型 分類範例三:部署客戶信用模型 資料分類範例 一 節點【C5.0】檔案iris.txt 150 records 5 fields 決策樹基本概念 Quinlan在1986年所提出的ID3演算法後,因其無法處理連續屬性的問題且不適用在處理大的資料集,因此1993又發表C5.0的前身4.5,直到現在所使用的C5.0決策樹演算法 C5.0演算法的結果可產生決策樹及規則集兩種模型,並且依最大資訊增益的欄位來切割樣本,並重複進行切割直到樣本子集不能再被分割爲止 【C5.0】模型節點能處理連續型變數與類別型的變數資料,因此需要至少一個【輸入】的輸入欄位以及一個(或以上)的【目標】欄位,且目標欄位必須是類別型變數 決策樹圖例 鳶尾花分類應用 這個鳶尾花(Iris)資料集是非常著名的生物資訊資料集之一,取自美國加州大學歐文分校的機械學習資料庫,/ml/datasets/Iris 主要是使用於分類(classification) 演算法的測試,非常符合本章的決策樹C5.0演算法來練習。資料的筆數計有150筆,共有五個欄位: 1. 花萼長度(Sepal Length):計算單位是公分。 2. 花萼寬度(Sepal Width):計算單位是公分。 3. 花瓣長度(Petal Length)?:計算單位是公分。 4. 花瓣寬度(Petal Width):計算單位是公分。 5. 類別(Class):可分為Setosa,Versicolour和Virginica三個品種 【變數檔案】節點 【類型】節點 【分割區】節點 【C5

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档