非参数曲线拟合.pdf

下载文档 降价啦

11
0
约3.5千字
约 5页
2019-05-25 发布于天津
举报
保障服务

非参数曲线拟合.pdf

非参数曲线拟合本模块调用R 的np 程序包的kernel smoothing 方法，对用户指定的结果变量Y 与一组自变量进行曲线拟合。详见：1. Tristen Hayﬁeld 和Jeﬀrey S. Racine， The np package. 2. Angelo Mazza et al. KernSmoothIRT: An R Package for Kernel Smoothing in Item Response Theory. Journal of Statistical Software June 2014, Volume 58, Issue 6. 自变量可以是多种类型（连续性、分类型）。应变量Y 可以是连续型或两分类型。模块自动根据数据计算最佳bandwidths （邻域宽度）。该模块计算时间较长。关于kernel smoothing: 简单起见，我们这里的讨论针对 X 是一维的情况，多维数据的处理是类似的。对于 KNN (K Nearest Neigbor)，我们知道，下面是一个用KNN 拟合一条有噪声的曲线的示意图。蓝线表示真正的曲线，绿线表示用KNN 拟合的效果。可以看到，这样拟合出来的曲线存在很多问题，比如不连续和不光滑。一种改进就是对于这 K 个近邻，我们给予它们不同的权重，距离越近，权重越大，距离越远，权重越小。其中一种叫做Nadaraya –Watson kernel-weighted 的方法可表示为: 其中一种核函数，叫做Epanechnikov quadratic kernel，可表示为改进后的示意图如下，可以看到拟合的效果有很大的改进当然，我们可以使用更加通用的核函数其中决定了在样本点处邻域的宽度。在上面的Epanechnikov quadratic kernel 中，，是其辐射的半径，对于高斯核函数来说，就是标准差。 Smoothing parameter 控制着邻域的宽度，的值越大，其领域越宽广，所包含的数据越多，这样暗示着variance 会越小，但是bias 可能会比较大。可以看到，对于Epanechnikov quadratic kernel，其bias 是固定的，但是variance 跟local density 呈现出反比例的关系，因为这时跟邻域数目K 没有多少关系，而跟目标样本点本身周围的密度有关。而对于KNN 则恰好相反，其bias 是跟local density 成反比例的，而variance 总是不变的。因为KNN 总是取K 个紧邻，所起variance 不受影响，但是如果local density 比较小，所取的K 个近邻其实都相隔比较远，那么其bias 自然就会比较大了。在自变量X 是多维的情形时，核函数把改成相应的向量即可。但是在多维的情况下会存在一些问题，比如在每个维度上样本间的距离可能相差很大，这时用一个球形的邻域就不太合适。一种方法是在每个维度上对数据进行标准化，另一种方法是用一个半正定的矩阵去调整在各个维度上距离的贡献。如果是对角阵，那么增加或者减少就会增加或减少特征的贡献。例1. 易侕软件自带的练习项目 “demo”，对DBP 的非参数曲线拟合分析，输入界面如下：输出结果如下： Multivariate nonparametric (Kernel) smoothing regression Outcome: Diastolic BP, mmhg Regression Data: 784 training points, in 8 variable(s) No. Complete Observations: 784 No. NA Observations: 48 Observations omitted: 10 56 114 117 152 157 186 187 193 197 198 205 219 247 249 300 394 422 427 461 464 498 511 521 540

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

非参数曲线拟合.pdf