- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
PAGE 3
数据挖掘报告
乳腺癌的分析
摘要
此次实验的目的主要是研究分类,对乳腺癌的类型良性的还是恶性的进行分类。比较一下什么方法更好。数据共包括699个观测值,每个观测有11个变量。有缺失值。主要是运用了R和SAS两个软件进行分析的。R中用的方法都是数据挖掘中的一些典型方法。SAS中是采用了判别与聚类的方法。原始数据已经将类别分好了,对于分类研究使用不同的方法看一下哪种方法的精度更高。
关键词:数据挖掘方法、判别、聚类
一 数据的描述:
a)一共有699个观测,11个变量。
b)变量解释:
id
clump_thickness 肿块的密度 取值1-10
uniformity_cell_size 细胞的大小均匀度 取值1-10
uniformity_cell_shape 细胞的形状的均匀度 取值1-10
marginal_adhesion 边缘部分的黏着度 取值1-10
single_epithelialcell_size 单一的上皮细胞的大小 取值1-10
bare_nuclei 裸露细胞核 取值1-10
bland_chromatin 染色质 取值1-10
normal_nucleoli 正常的细胞核 取值1-10
mitoses 有丝分裂 取值1-10
btype 类型 2-良性,4-恶性
c)数据是共有16个缺失值的,在bare_nuclei 这个变量中
d)对缺失值的处理共采用了三种方法:直接删除、利用均值进行插补、利用中
位数进行插补。
e)后面采用的方法最基本的数据是采用了中位数的方法进行差补以后的。
二 R语言采用的方法介绍共5种方法
(决策树,神经网络,支持向量机,随机森林,最近邻方法)
A) 数据的基本处理
1)读入txt格式数据,将btype设为分类变量
breast_cancer - read.delim(breast_cancer.txt);
breast_cancer$btype - factor(breast_cancer$btype);
2) 显示16个缺失值所在的行数
which(complete.cases(breast_cancer) == F);
[1] 24 41 140 146 159 165 236 250 276 293 295 298 316 322 412 618
缺失值的处理方法
a)直接删除
breast_cancer_delete - na.omit(breast_cancer);
b)均值进行差补
breast_cancer_mean - breast_cancer;
for (r in which(!complete.cases(breast_cancer)))
{
breast_cancer_mean[r, which(is.na(breast_cancer[r, ]))] - apply(data.frame(breast_cancer[, which(is.na(breast_cancer[r, ]))]), 2, mean, na.rm = T);
}
c)中位数进行插补
breast_cancer_median - breast_cancer;
for (r in which(!complete.cases(breast_cancer)))
breast_cancer_median[r, which(is.na(breast_cancer[r, ]))] - apply(data.fra
您可能关注的文档
- 2015最新整理华医网《临床基本技能操作》答案.doc
- 2016电大考试复习—《社会调查研究与方法》复习资料整理.doc
- 2016电大专科《刑事诉讼法学》考试试题整理参考小抄【微缩打印版】.doc
- 2016服装,图案,色彩流行趋势预测.ppt
- 2016-概论课第七章社会主义改革开放理论课件.ppt
- 2016高考地理二轮复习 第二部分 专题二 考点四 气候类型的成因与判读课件.ppt
- 2016高考地理二轮复习 第二部分 专题四 地壳的运动与地形、地质灾害考点专练.doc
- 2016高考地理二轮复习 第一部分 微专题强化练 考点6 地表形态的变化课件.ppt
- 2016高考地理一轮复习 世界地理 拉丁美洲和巴西导学案(无答案).doc
- 2016高考化学一轮复习考点精练精析 电解质与非电解质(含解析).doc
文档评论(0)