- 2
- 0
- 约2.28千字
- 约 46页
- 2018-04-28 发布于天津
- 举报
非常符合本章的决策树c0演算法来练习
資料分類範例三 節點【C5.0】檔案 RiskNew.xlsx 12470 records 10 fields 模型的部署 部署(deployment)就是將模型運用在新資料上,亦即先訓練舊資料再以新資料預測 舊資料檔Risk有4117 筆資料,已有分類好的RISK欄位,某欄名storecar,loan範圍0-3 新資料檔RiskNew有12470筆資料,但沒有RISK欄位,storecards需改名成storecar ,又如果有一筆資料loan=5? 因為新資料檔沒有RISK欄位,因此產生的模型就無法產生混淆矩陣和正確率分析的結果 訓練Risk後再以RiskNew預測模型 所產生模型的表格 模型的分配圖 模型的直方圖 資料分類範例四 節點【CRT】檔案wdbc.txt 569 records 32 fields 分類迴歸樹基本概念 分類迴歸樹(CR Tree, Classification and Regression Tree)由Breiman在1984年提出 CR Tree以反覆運算的方式,由根部開始反覆建立二元分支樹,直到樹節點中的同質性達到某個標準,或觸發反覆運算終止條件為止 CR Tree的輸出欄位既可以是數值型資料,也可以是類別型資料 乳腺癌醫學診斷應用 本範例檔wdbc.txt的乳腺癌(Breast Cancer Diagnostic)的診斷資料,取自美國加州大學歐文分校的機械學習資料庫/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29 Wisconsin大學臨床研究中心於1995年蒐集569例乳腺癌症的病患實際診斷資料,診斷的方式是對於可疑的乳腺腫塊使用細針穿刺的技術 (Fine Needle Aspirate, FNA)蒐集數位化圖像並加以計算 乳腺癌醫學診斷欄位說明 wdbc.txt的欄位計有32項,分別是 1. 識別號碼(ID number):識別號碼 2. 診斷結果(Diagnosis):惡性(M = malignant)、良性(B = benign) 3-32. 這30項資料是計算每一個細胞核的真實資料測量值,包含以下的內容:半徑(radius)、紋理(texture)周長(perimeter)、範圍(area)、平滑度(smoothness)、緊密度(compactness)、凹陷部分的程度(concavity)、凹陷部分的數量(concave points) 、對稱度(symmetry) 、碎型維度(fractal dimension) 【類型】節點和【CRT】節點 檢視決策樹及預測變數重要性 由左至右的決策樹模型 輸出的矩陣和表格 正確率分析 改用【 C5.0】節點預測效果更好 * * 資料探勘與Modeler使用介紹 資料分類-C5.0和CRT模型 資料集群-K-means 和模型評估 4 2 3 1 SPSS Modeler資料探勘應用基礎 資料關聯-Apriori和Sequence 分類範例一:鳶尾花分類應用 分類範例二:客戶信用風險評估 分類範例四:乳腺癌醫學診斷應用 4 2 3 1 2.資料分類-C5.0和CRT模型 分類範例三:部署客戶信用模型 資料分類範例 一 節點【C5.0】檔案iris.txt 150 records 5 fields 決策樹基本概念 Quinlan在1986年所提出的ID3演算法後,因其無法處理連續屬性的問題且不適用在處理大的資料集,因此1993又發表C5.0的前身4.5,直到現在所使用的C5.0決策樹演算法 C5.0演算法的結果可產生決策樹及規則集兩種模型,並且依最大資訊增益的欄位來切割樣本,並重複進行切割直到樣本子集不能再被分割爲止 【C5.0】模型節點能處理連續型變數與類別型的變數資料,因此需要至少一個【輸入】的輸入欄位以及一個(或以上)的【目標】欄位,且目標欄位必須是類別型變數 決策樹圖例 鳶尾花分類應用 這個鳶尾花(Iris)資料集是非常著名的生物資訊資料集之一,取自美國加州大學歐文分校的機械學習資料庫,/ml/datasets/Iris 主要是使用於分類(classification) 演算法的測試,非常符合本章的決策樹C5.0演算法來練習。資料的筆數計有150筆,共有五個欄位: 1. 花萼長度(Sepal Length):計算單位是公分。 2. 花萼寬度(Sepal Width):計算單位是公分。 3. 花瓣長度(Petal Length)?:計算單位是公分。 4. 花瓣寬度(Petal Width):計算單位是公分。 5. 類別(Class):可分為Setosa,Versicolour和Virginica三個品種 【變數檔案】節點 【類型】節點 【分割區】節點 【C5
原创力文档

文档评论(0)