分类树建构流程 辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍 .doc

分类树建构流程 辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍 .doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类树建构流程 辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍

分類樹建構流程 輔仁大學應用統計研究所 林宸翊 陳暎仁 資料集介紹 本範例所使用的資料集為一個有關於糖尿病(Diabetes)檢驗的資料集,以美國皮馬族印度安人(Pima Indians)21歲以上的女性為母體的檢測資料。在本資料集中共有768筆觀察值,8個連續型變數與1個類別型變數;其中連續型資料為受測者的一些身體檢測數值,而類別變數則為依據世界衛生組織(WHO)的糖尿病判別標準來區分成有糖尿病與無糖尿病。以下為此資料集的相關資訊。 資料集名稱:Pima Indians Diabetes Database 資料來源:National Institute of Diabetes and Digestive and Kidney Diseases 變數個數:8個連續型變數+1個類別型變數 觀察值個數:768筆 變數列表如表一。 表 一 變數列表 變數名稱 解釋標籤 遺失值 npreg 懷孕次數 無 glu 2小時內血漿中葡萄糖的含量 5筆 bp 舒張壓,單位為mm Hg 35筆 skin 三頭肌厚度,單位為mm 227筆 insulin 2小時內血清胰島素含量 374筆 bmi 身體質量指數 11筆 ped 糖尿病家族函數 無 age 年齡 無 type 是否得糖尿病,0為No, 1為Yes. 無 本範例目的是建構一個CART分類模型,用以判斷預測是否會得糖尿病。本範例所搭配使用的軟體為R,它是一個無論在統計計算功能與繪圖上均十分優秀的統計軟體;在本範例中也會藉此完整展示如何以R建構一個完整的CART程序。 在建構CART模型之前,須先將資料集分為訓練用的資料集(Training data)與測試用資料集(Testing data),幸運的是在R的封包(package)中已經將這兩種資料集準備好,值得注意的是R所提供的資料集都比完整的Pima資料集少一個連續型變數’ insulin’,主要是因為此變數內容有374筆都是遺失值(Missing value),因此在建模時不予以採用,但在以下介紹如何讀取資料與整理的範例仍會保留此一變數。剔除’ insulin’變數後的Pima資料集具有完整資料的筆數共有532筆,並隨機選出200筆作為訓練資料集,名為Pima.tr,而剩下來的322筆完整資料則做為測試資料集,名為Pima.te,這兩個已被存成data frame置於封包’MASS’中,在以下的程序中亦會介紹如何讀取與使用這些資料集。 讀取資料與資料處理 在R中輸入資料有許多種方式,對資料分析而言最常用的便是從外部讀取一分資料集。R可以讀取大部分的資料格式,包含*.txt與*.dat或是*.data,甚至在加裝其他package之後,也可以從SPSS、SAS、Excel與資料庫中輸入想要的資料;而在此本範例中若要讀取整個完整的Pima資料集Pima.data則可使用以下指令: Pima - read.table(路徑名稱/Pima.data, header=FALSE, sep=,, na.strings=NA, +col.names=c(npreg,glu,bp,skin,insulin,bmi,ped, age,type)) read.table()是將外部資料讀取進R最常使用的函數,而由於在Pima.data中只有資料而沒有變數名稱,因此設定參數header=FALSE來告訴R讀取資料中的第一行不是變數名稱;變數名稱的宣告是藉由col.names參數設定。sep=,與na.strings=NA則是告訴R在讀取資料時是以逗號作為變數之間的區隔且字串NA代表遺漏值。最後將整個資料集讀入R後將之命名成一個名為Pima的data frame方便之後使用。讀取完成之後若想看Pima中的內容可用print()函數或是直接打上Pima便可;在此由於資料筆數過多僅列出前10筆結果(表二)。 print(Pima[1:10,]) 表 二 Pima資料集前10筆資料 Obs. npreg glu bp skin insulin bmi ped age type 1 6 148 72 35 0 33.6 0.627 50 1 2 1 85 66 29 0 26.6 0.351 31 0 3 8 183 64 0 0 23.3 0.672 32 1 4 1 89 66 23 94 28.1 0.167 21 0 5 0 137 40 35 168 43.1 2.288 33 1 6 5 116 74 0 0 25.6 0.201 30 0 7 3 78 50 32 88 31 0.248 26 1 8 10 115 0 0 0 35.3 0.134 29 0 9 2 197 70 45 543 30.5 0

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档