分类树建构流程辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍 .doc

下载文档 降价啦

4
0
约1.75万字
约 19页
2017-09-02 发布于天津
举报
版权申诉
保障服务

分类树建构流程辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍 .doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分类树建构流程辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍

分類樹建構流程輔仁大學應用統計研究所林宸翊陳暎仁資料集介紹本範例所使用的資料集為一個有關於糖尿病(Diabetes)檢驗的資料集，以美國皮馬族印度安人(Pima Indians)21歲以上的女性為母體的檢測資料。在本資料集中共有768筆觀察值，8個連續型變數與1個類別型變數；其中連續型資料為受測者的一些身體檢測數值，而類別變數則為依據世界衛生組織(WHO)的糖尿病判別標準來區分成有糖尿病與無糖尿病。以下為此資料集的相關資訊。資料集名稱：Pima Indians Diabetes Database 資料來源：National Institute of Diabetes and Digestive and Kidney Diseases 變數個數：8個連續型變數+1個類別型變數觀察值個數：768筆變數列表如表一。表一變數列表變數名稱解釋標籤遺失值 npreg 懷孕次數無 glu 2小時內血漿中葡萄糖的含量 5筆 bp 舒張壓，單位為mm Hg 35筆 skin 三頭肌厚度，單位為mm 227筆 insulin 2小時內血清胰島素含量 374筆 bmi 身體質量指數 11筆 ped 糖尿病家族函數無 age 年齡無 type 是否得糖尿病，0為No, 1為Yes. 無本範例目的是建構一個CART分類模型，用以判斷預測是否會得糖尿病。本範例所搭配使用的軟體為R，它是一個無論在統計計算功能與繪圖上均十分優秀的統計軟體；在本範例中也會藉此完整展示如何以R建構一個完整的CART程序。在建構CART模型之前，須先將資料集分為訓練用的資料集(Training data)與測試用資料集(Testing data)，幸運的是在R的封包(package)中已經將這兩種資料集準備好，值得注意的是R所提供的資料集都比完整的Pima資料集少一個連續型變數’ insulin’，主要是因為此變數內容有374筆都是遺失值(Missing value)，因此在建模時不予以採用，但在以下介紹如何讀取資料與整理的範例仍會保留此一變數。剔除’ insulin’變數後的Pima資料集具有完整資料的筆數共有532筆，並隨機選出200筆作為訓練資料集，名為Pima.tr，而剩下來的322筆完整資料則做為測試資料集，名為Pima.te，這兩個已被存成data frame置於封包’MASS’中，在以下的程序中亦會介紹如何讀取與使用這些資料集。讀取資料與資料處理在R中輸入資料有許多種方式，對資料分析而言最常用的便是從外部讀取一分資料集。R可以讀取大部分的資料格式，包含*.txt與*.dat或是*.data，甚至在加裝其他package之後，也可以從SPSS、SAS、Excel與資料庫中輸入想要的資料；而在此本範例中若要讀取整個完整的Pima資料集Pima.data則可使用以下指令： Pima - read.table(路徑名稱/Pima.data, header=FALSE, sep=,, na.strings=NA, +col.names=c(npreg,glu,bp,skin,insulin,bmi,ped, age,type)) read.table()是將外部資料讀取進R最常使用的函數，而由於在Pima.data中只有資料而沒有變數名稱，因此設定參數header=FALSE來告訴R讀取資料中的第一行不是變數名稱；變數名稱的宣告是藉由col.names參數設定。sep=,與na.strings=NA則是告訴R在讀取資料時是以逗號作為變數之間的區隔且字串NA代表遺漏值。最後將整個資料集讀入R後將之命名成一個名為Pima的data frame方便之後使用。讀取完成之後若想看Pima中的內容可用print()函數或是直接打上Pima便可；在此由於資料筆數過多僅列出前10筆結果(表二)。 print(Pima[1:10,]) 表二 Pima資料集前10筆資料 Obs. npreg glu bp skin insulin bmi ped age type 1 6 148 72 35 0 33.6 0.627 50 1 2 1 85 66 29 0 26.6 0.351 31 0 3 8 183 64 0 0 23.3 0.672 32 1 4 1 89 66 23 94 28.1 0.167 21 0 5 0 137 40 35 168 43.1 2.288 33 1 6 5 116 74 0 0 25.6 0.201 30 0 7 3 78 50 32 88 31 0.248 26 1 8 10 115 0 0 0 35.3 0.134 29 0 9 2 197 70 45 543 30.5 0

您可能关注的文档

文档评论（0）

wujianz + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

分类树建构流程辅仁大学应用统计研究所林宸翊陈映仁 1 资料集介绍 .doc