非参数曲线拟合.pdf

非参数曲线拟合 本模块调用R 的np 程序包的kernel smoothing 方法,对用户指定的结果变量Y 与一组自变 量进行曲线拟合。详见:1. Tristen Hayfield 和Jeffrey S. Racine, The np package. 2. Angelo Mazza et al. KernSmoothIRT: An R Package for Kernel Smoothing in Item Response Theory. Journal of Statistical Software June 2014, Volume 58, Issue 6. 自变量可以是多种类型(连续性、分类型)。应变量Y 可以是连续型或两分类型。模块自动 根据数据计算最佳bandwidths (邻域宽度)。该模块计算时间较长。 关于kernel smoothing: 简单起见,我们这里的讨论针对 X 是一维的情况,多维数据的处理是类似的。对于 KNN (K Nearest Neigbor),我们知道 , 下面是一个用KNN 拟合一条有噪声的曲线的示意图。蓝线表示真正的曲线,绿线表示用KNN 拟合的效果。 可以看到,这样拟合出来的曲线存在很多问题,比如不连续和不光滑。一种改进就是对于这 K 个近邻,我们给予它们不同的权重,距离越近,权重越大,距离越远,权重越小。其中一种叫 做Nadaraya –Watson kernel-weighted 的方法可表示为: 其中 一种核函数,叫做Epanechnikov quadratic kernel,可表示为 改进后的示意图如下,可以看到拟合的效果有很大的改进 当然,我们可以使用更加通用的核函数 其中 决定了在样本点 处邻域的宽度。在上面的Epanechnikov quadratic kernel 中, , 是其辐射的半径,对于高斯核函数来说, 就是标准差。 Smoothing parameter 控制着邻域的宽度, 的值越大,其领域越宽广,所包含的数据越 多,这样暗示着variance 会越小,但是bias 可能会比较大。可以看到,对于Epanechnikov quadratic kernel,其bias 是固定的,但是variance 跟local density 呈现出反比例的关系, 因为这时跟邻域数目K 没有多少关系,而跟目标样本点本身周围的密度有关。而对于KNN 则恰好 相反,其bias 是跟local density 成反比例的,而variance 总是不变的。因为KNN 总是取K 个 紧邻,所起variance 不受影响,但是如果local density 比较小,所取的K 个近邻其实都相隔 比较远,那么其bias 自然就会比较大了。 在自变量X 是多维的情形时,核函数把 改成相应的向量 即可。但是在多维 的情况下会存在一些问题,比如在每个维度上样本间的距离可能相差很大,这时用一个球形的邻 域就不太合适。一种方法是在每个维度上对数据进行标准化,另一种方法是用一个半正定的矩阵 去调整在各个维度上距离的贡献。 如果 是对角阵,那么增加或者减少 就会增加或减少特征 的贡献。 例1. 易侕软件自带的练习项目 “demo”,对DBP 的非参数曲线拟合分析,输入界面如下: 输出结果如下: Multivariate nonparametric (Kernel) smoothing regression Outcome: Diastolic BP, mmhg Regression Data: 784 training points, in 8 variable(s) No. Complete Observations: 784 No. NA Observations: 48 Observations omitted: 10 56 114 117 152 157 186 187 193 197 198 205 219 247 249 300 394 422 427 461 464 498 511 521 540

文档评论(0)

1亿VIP精品文档

相关文档