- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
小孩体重的统计分析 分析思路 普通线性回归模型(最小二乘多元回归) 岭回归 现代回归方法(回归树、最近邻方法、支持向量机) 现代回归方法组合方法(bagging、randomForest) 评价模型标准的选择 我将选用MAPE(The Mean Absolute Percentage Error ),即平均绝对误差百分比来对模型进行评价,在以后的方法中,均采用1次10折交叉验证。 经典线性回归模型(最小二乘法) 岭回归 刚才的讨论中,我们假定了每个变量之间不存在多重共线性,但实际在小孩体重问题里,数据的变量之间是否存在多重共线性,我们只是做了定性的分析,接下来我们通过岭回归的方法间接的说明变量之间时候存在多重共线性以及岭回归的模型结果。 岭回归 针对多重共线性时,普通最小二乘法明显变坏的问题,A.E.Hoerl在1962年首先提出一种改进最小二乘的方法,叫岭估计(ridge estimate)。后来Hoerl和Kennard于1970年给予了详细的讨论。 现代方法之回归树 现代方法之最近邻方法 它基于训练集对测试集进行分类或回归。每个回归或分类问题都有一些自变量,它们组成一个多维空间。 在回归中,一个测试集点的因变量的预测值应该等于离它最近的k个训练集点相应的因变量值的平均。至于k的选择,一般都用测试集的交叉验证来进行。 现代方法之支持向量机 现代方法之组合方法(bagging) 用自助法生成训练集, 原始训练集D中每个样本未被抽取的概率为( 1 - 1/ N ) N ,这里N 为原始训练集D 中样本的个数。当N 足够大时, ( 1 - 1/ N )^N 将收敛1/e~0.368, 这表明原始样本集D中接近37% 的样本不会出现在bootstrap样本中。这样抽k次就有k个不同的样本。 然后,对每个样本生成一个决策树。这样,每个树都对一个新的观测值产生一个预测。 如果目的是回归,则由这些树的结果的平均得到因变量的预测值。 table(ave(abs(w1[samp,]$bwt-predict(a71,w1[samp,]))/w1[samp,]$bwt))#训练集平均误差 table(ave(abs(w1[samp,]$bwt-predict(a72,w1[samp,]))/w1[samp,]$bwt))#剪完支的模型训练集平均误差 table(ave(abs(w1[tsamp,]$bwt-predict(a71,w1[tsamp,]))/w1[tsamp,]$bwt))#测试集平均误差 table(ave(abs(w1[tsamp,]$bwt-predict(a72,w1[tsamp,]))/w1[tsamp,]$bwt))#剪完枝测试集平均误差 library(kknn)#最近邻方法(nearest neighbor algorithm) a10=kknn(bwt~.,w1[samp,],w1[tsamp,],k=30,distance=2) print(a10) pre=fitted(a10) table(ave(abs(w1[tsamp,]$bwt-pre)/w1[tsamp,]$bwt))#测试集平均误差 Kknn方法上面做不出训练集上的MAPE library(class);library(e1071) a12 - svm(bwt~.,data=w1[samp,],kernal=linear) train=fitted(a12) pred.test - predict(a12,w1[-samp,]) table(ave(abs(w1[samp,]$bwt-train)/w1[samp,]$bwt))#测试集平均误差 table(ave(abs(w1[tsamp,]$bwt-pred.test)/w1[tsamp,]$bwt))#测试集平均误差 * w=read.table(f:/多元统计分析/babies_data_new.txt,header=T) w[1:10,] 这是一个存在缺失值的数据 w[!complete.cases(w),]#显示缺省值数据 该数据一共包含1236个样本,带有缺失值的样本共有62个。仅占总数的5%,选择直接删除缺省值。 nrow(w[!complete.cases(w),]) ##缺失值项的总行数 对缺失值的简单处理 summary(w1);hist(w1$bwt)#删除缺省值后的数据的描述统计和因变量分布 w$parity=factor(w$parity);w$smoke=factor(w$smoke) 数据变量特点 因变量小孩出生净重为定量变量 自变量包含孕期、是否第一次生产等定性变量和定量变量 样本里小孩体重分布服从正态分布 n=nrow(w1);set.
您可能关注的文档
- 坐标与时间系统.ppt
- (_寿险行业理财知识)投资工具介绍.ppt
- (C)太阳油墨工艺技术概要(新Forpresentation).doc
- (大学)电路第十二章.ppt
- (富士数码摄影学堂)摄影技巧.doc
- (肝病讲座)正常肝脏解剖和组织结构.ppt
- (个案护理)胫腓骨上段骨折个案.ppt
- (邱关源)电路第五版第五章.ppt
- (通用)企业文化管理咨询项目建议书.ppt
- (童车)玩具类产品强制性认证实施规则.doc
- 2024年西藏昌都地区企业人力资源管理师之四级人力资源管理师考试题库大全及参考答案(达标题).docx
- 2024年西藏山南地区企业人力资源管理师之四级人力资源管理师考试精品题库带答案AB卷.docx
- 2024年西藏那曲地区企业人力资源管理师之一级人力资源管理师考试内部题库【名校卷】.docx
- 2024年西藏林芝地区企业人力资源管理师之一级人力资源管理师考试通用题库及答案(各地真题).docx
- 2024年福建省龙岩企业人力资源管理师之四级人力资源管理师考试真题题库带答案(综合题).docx
- 2024年西藏日喀则地区企业人力资源管理师之一级人力资源管理师考试题库【模拟题】.docx
- 2024年福建省莆田市企业人力资源管理师之一级人力资源管理师考试王牌题库含答案下载.docx
- 2024年财政所个人工作总结参考模板(3篇) .pdf
- 2024年西藏山南地区企业人力资源管理师之一级人力资源管理师考试A4版打印.docx
- 2024年西藏昌都地区企业人力资源管理师之一级人力资源管理师考试通用题库a4版可打印.docx
最近下载
- 国家森林公园总体规划规范.doc VIP
- Unit 5 The colourful world Part C Reading time大单元教学设计 人教PEP版三年级英语上册2024.pdf
- 2024年疾控大学习全球预防接种进展答案.docx VIP
- 《体教融合文献综述》.docx VIP
- 2018年国家公务员考试《公安专业科目》真题及解析.pdf VIP
- 古代汉字对外传播史.doc
- 采访课件模板.pptx VIP
- 三九控制法——欧博企管.ppt VIP
- GBT 50034-2024 建筑照明设计标准.docx VIP
- 人教PEP五年级上册英语《Unit 4 Read and write 》教学课件.pptx
文档评论(0)