- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章 非参数密度估计和非参数回归简介 10.1非参数密度估计 10.1.1 一元密度估计 10.1.2 多元密度估计 10.2非参数回归 10.1非参数密度估计 例10.1在美国黄石国家公园有一个间歇式的温泉,它的喷发间隔很有规律,大约66分钟喷发一次,实际上从33分钟到148分钟之间变化,水柱高度可达150英尺,由于其喷发保持较明显的规律性,人们称之为老忠实. 问题:人们想知道间隔时间的密度函数. 一元密度估计 直方图记录了每个区间中点的个数或频率,但很难给出较为准确的密度估计. 核密度估计 :原理和直方图类似,计算某一点周围点的个数. 若数据为 ,在任意一点x处的一种核密度估计为 其中 K(.)称为核函数,满足对称性及 h称为带宽,一般,h越大,估计的密度函数就越光滑,但偏差可 能较大,选择的原则是使得均方误差最小为宜.(交叉验证法, 直接插入法) 注:该估计利用数据点 xi 到x的距离来决定 xi 在估计点x的 密度时所起的作用 局部多项式密度估计:目前最流行,效果很好的密度估计 方法.对每一个点x拟合一个局部多项式来估计该点的密度. k近邻估计:无论欧氏距离多少,只要是x点的最近的k个 点就可参与加权.一种具体的k近邻密度估计: 令 表示按升幂排列的x到所有n个样本点的 欧氏距离. K的取值决定了估计密度曲线的光滑程度,k越大越光滑. 与核估计结合起来定义广义的k近邻估计: 多元密度估计 对于二元数据,可以画二维直方图. 假定x为d-维向量,则多元密度估计可以为 其中 10.2 非参数回归 回归是指给了一组数据 之后,希望找到一个X变量和Y变量的一个关系: 主要目的是对m(x)进行估计. 例10.2 研究摩托车碰撞,变量times(X)为在模拟的和摩托车相撞之后的时间,变量accel(Y)是头部的加速度. 问题:X和Y之间有何种函数关系? 回归实际上就是把原始数据点光滑化,线 性回归是最光滑的,此外还可以用多项式或 其它函数来拟合. 在非参数回归中,主要考虑的是局部加 权回归方法,有核光滑,局部多项式回归,k-近 邻光滑,样条光滑等 滑动平均:最初等的平滑是三点滑动平均,把每一点的Y值 用该点的和邻近两点的平均代替.平均的点数越多,就越光 滑. 核回归光滑:基本思路和三点平均是类似的,只不过作平 均时是按照核函数进行加权平均. Nadaraya-Watson形式的核估计 Gausser—Muller核估计: 其中 k-近邻光滑:令Jx表示和x最近的k个点的集合,此时 其中 局部多项式回归:假定在局部上,回归函数m(.)在x的邻域 点z可以由Taylor展开来近似: 需要估计出 ,再加权,这归结为所谓的局部的 加权多项式回归,它要选择 ,使得下式最小 记这样的对 的估计为 ,由此得到 的估计 也就是说在每一点x的附近运用估计: 当p=1时称为局部线性估计. 局部多项式估计有很多优点:兼备有Nadaraya—Watson估 计和Gausser---Muller估计二者的优点,而且在边沿附近的 性质又优于这二者. Loess局部加权多项式回归 最初由Cleveland 提出,后又被ClevelandDevlin及其他许多人发展.Loess方法和Lowess方法相近. 其主要思想为:在数据集合的每一点用低维多项式 拟合数据点的一个子集,并估计该点附近自变量数据点所对 应的因变量值,该多项式是用加权最小二乘法来拟合;离该 点越远,权重越小,该点的回归函数值就是这个局部多项式 来得到,而用于加权最小二乘回归的数据子集是由最近邻方 法确定. 最大优点:不需要事先设定一个函数来对所有数据拟合 一个模型. Loess很灵活,适用于很复杂的没有理论模型存在的情 况. 数据越密集, Loess的结果越好. 光滑样条:原理是调和拟合度和光滑程度. 选择的近似函数f(.)要使下式尽可能地小: 当 (0)大时,二阶导数要很小才行,这样就使得拟合很 光滑,但第一项代表的偏差就可能很大. Friedman超光滑法:这种方法会使得带宽随着x变化. 对每个点有三个带宽来自动选取,,这依据该点每边的邻 域中的点数而定,不用
您可能关注的文档
最近下载
- 第18课 《我的白鸽》课件(共46张PPT).pptx VIP
- 2025-2030中国裹粉市场动向追踪与企业经营发展分析研究报告.docx
- 精品解析:北京市第五十七中学2024-2025学年八年级下学期期中考试物理试题(解析版).docx VIP
- 工艺评审报告、评审意见汇总表 .docx VIP
- 延安市各区县地表水系图.pdf VIP
- 初一语文语文朝花夕拾名著阅读的专项培优易错试卷练习题及答案.pdf VIP
- 四年级上册人教版第四单元 第01课时 三位数乘两位数的笔算方法(学习任务单).docx VIP
- 土地增值税清算与最新土地增值税反避税应对实务.ppt VIP
- 双能量CT临床应用指南.PDF
- 人教版初一语文朝花夕拾名著阅读 专题测试题试卷.pdf VIP
原创力文档


文档评论(0)