非参数统计模型.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
非参数统计模型

非参数统计第二次作业 ——局部多项式回归与样条回归习题一:本题是研究加拿大工人收入情况,即年龄(age)和收入(income)的关系。此次共调查了205个加拿大工人的年龄和收入,所有工人都是高中毕业。且本题设定因变量为log.income,协变量为age,运用统计方法来拟合log.income 与age之间的函数关系。模型的建立1.估计方法的选取拟合两个变量之间的函数关系,即因变量和协变量之间的关系,用回归估计的方法,回归估计包括参数回归估计和非参数回归估计。参数估计是先假定某种数学模型或已知总体的分布,例如总体服从正态分布,其中某些参数未知,如总体均值、方差等,然后利用样本去估计这些未知参数,常用的方法有极大似然估计,Bayes估计等,线性模型可以用最小二乘法估计。非参数估计是不假定具有某种特定的数学模型,或总体分布未知,直接利用样本去估计总体的数学模型,常用的方法有局部多项式回归方法和样条函数回归方法。本题调查了205个加拿大工人的年龄和收入,但是加拿大工人年龄和收入的具体分布未知,即这两个变量所能建立的数学模型未知,而且由协变量和因变量所形成的散点图可以看出它不符合某种特定的已知模型,需要进一步研究,然后拟合它们之间的函数关系。因此本题选用非参数回归估计的方法,来拟合因变量和协变量之间的关系。针对此问题分别采用非参数估计中的局部多项式回归和样条函数回归方法对log.income 与age之间的函数关系进行估计。2.局部多项式回归方法局部多项式的思想是在某个点x附近,用一个多项式函数来逼近未知的光滑函数g(x)。选定局部邻域的大小h,对于任意给定某个点x 0,在其小邻域内展开泰勒公式,用一个p阶多项式来局部逼近g(x),然后再用极大似然估计。(1)加拿大工人的收入(log.income)与年龄(age)之间的散点图如下所示:注:以下所做的图中用X表示协变量年龄age,用Y表示因变量收入log.income(2)用将X与Y排序的方法拟合的加拿大工人的收入(log.income)与年龄(age)之间函数关系如下图所示:(3)用局部多项式回归方法拟合的加拿大工人的收入(log.income)与年龄(age)之间函数关系如下图所示:(4)用cross-validation的方法选择最佳的smoothing parameter,图形如下:由上图可以大概看出smoothing parameter的取值,使得函数CV.vec达到最小的h.vec取值是7,即最佳的smoothing parameter取值h=7。(5)结果分析对于最终用局部多项式回归方法拟合的收入(log.income)与年龄(age)之间函数关系图中,黑色线条表示的是将X与Y排序拟合的函数关系;红色线条Local linear estimate1表示的是用Epanechnikov核函数确定的smoothing parameter进行局部多项式回归得到的函数关系;蓝色线条表示用cross-validation方法确定的最佳smoothing parameter进行局部多项式回归得到的函数关系,显然蓝色线条对X与Y拟合的函数关系比较准确。3.样条函数回归方法 样条函数的思想是在区间[a,b]内等距离选取K个点作为节点,每两个相邻的节点区域内都是一个基函数,且每一个基函数都是分段函数,每一组基函数构成一个线性空间。在众多基函数选取中,B-样条基函数更稳定,应用更广泛。对于拟合的函数的光滑程度的控制,P-Spline函数方法更好。P-Spline函数方法用一些预先定义的节点来定义一组基函数,同时增加一个惩罚函数,来控制拟合函数的光滑程度。然后用一组B-样条基函数的线性组合来逼近f(x),最后解最优函数。(1)加拿大工人的收入(log.income)与年龄(age)之间的散点图如下所示:(2)用penalized-splines方法拟合的加拿大工人的收入(log.income)与年龄(age)之间函数关系如下图所示:(3)用generalized cross-validation的方法选择最佳的smoothing parameter,图形如下:由上图可以大概看出smoothing parameter的取值,最佳的smoothing parameter取值h=0.035。(4)结果分析上图中红色线条表示的是用generalized cross-validation方法选择的最佳smoothing parameter 进行penalized-splines回归得到的X与Y的函数关系,显然此回归结果与局部多项式回归中蓝色线条所代表的拟合函数相似,而且都充分凸显了散点图中xobs与yobs函数关系的双峰效果,拟合程度较好。习题二一、本题是对etha

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档