非参数密度估计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十章 非参数密度估计 密度估计的参数解是首先假设一个参数模型, ,其中 为低维参数向量。然后通过一些估计方法得到 ,如极大似然估计,矩估计等等。然后到处密度函数。此方法的危险性在于初始假设模型的不正确可能导致严重的推断错误。 一种常见的非参数密度估计是直方图,他是一种分段常数的密度估计。另一种基本的密度估计可通过考虑密度函数如何将概率分配到各区间上受到启发,如果 足够光滑,我们假设 将某概率不但赋予给 点,而且赋予给 周围的一个区域。因此,要从 估计 ,将 周围区域的概率密度累加起来时合理的。 10.1 绩效度量 绩效度量是为了评价密度估计量的性质。令 为整个支撑区域上 的估计量,引入积分平方误差 如果我们想讨论估计量的一般性质,那么在所有可能的样本上对 进行平均是比较合理的。积分平均误差为 其中的期望是关于分布 。因此 可以看成是误差( )关于抽样密度的整体度量的平均值。又由期望和积分的可交换性, 其中 MISE和ISE都可用来研究选择h值的准则。两者的好坏已知都有争论,详见 Birgit Grunda;?Peter Hallb;?J. S. Marronc. Loss and risk in smoothing parameter selection? Peter Hall and J. S. Marron. lower bounds for bandwidth selection in density estimation 10.2 核密度估计 一元核密度估计允许采取灵活的加权方案,即拟合 其中K为核密度,h为固定值,通常称为窗宽。一些常见的核为: (10.6的估计量为固定窗宽核密度估计。而窗宽的大小对估计量有很大的影响,小的窗宽会将密度分配得太局限于观测数据附近,导致估计密度函数有很多错误的峰值;而大的窗宽会将密度贡献分布得太开,从而会因光滑而遗失掉 的一些特征。 10.2.1 窗宽的选择 MISE等于积分均方误差。这表明窗宽的选择是偏差和方差的折衷 例 10.1(双峰密度) 实际上,我们只需对h试一串值,然后选择一个比较合适的。当然,我们希望得到一个相对正规的窗宽选择程序:如自动算法。 假设K是连续对称的概率密度函数,均值为0,方差 .令 表示给定函数 的粗超度的度量,定义为 然后假设 且 足够光滑。即有二阶有界连续导数。 在上式中用Taylor级数展开 因此 同样可以计算得到: 将其对x积分得 因此 其中 称为渐进均方误差,h最小化上式可得 很多窗宽的选择方法依赖于优化或者找到关于h的函数的根,例如最小化AMISE(h的一个近似量。 1、交叉验证 许多窗宽的选择是把 作为 的估计量而与h联系起来,用某个量Q(h量化,如果Q表示根据对在某种意义上对观测数据的拟合程度,那么观测数据在计算 和计算拟合程度时候用了两次,这样会对观测提供一个过于乐观的观点,为纠正这一问题,可以采用交叉验证,计算 在第i个点的质量时,模型采用除去第i个点之外的所有数据拟合,令 表示 点处核密度估计量用除 外所有数据估计的密度。交叉验证中一种常见的Q的选择是伪似然 尽管此方法简单,但其得到的密度估计常常有太多的摆动且对异常值过于敏感。且其估计量很多时候是不相合的 另一种方法是将积分平方误差写成 组后一项是常数,中间项可以通过 来估计,因此通过关于h最小化 得到窗宽,此方法称为无偏交叉验证准则。如果不可能解析计算 ,那么计算上式的最好的方式是寻找一个核来简化解析,对于正态核 详见Nonparametric Econometrics :Theory and Practice 例10.2 (鲸的洄游)2001年春天在阿拉斯加巴罗岛附近的海冰边缘对弓头鲸幼仔做了一个目测调查,为了得到摸清其洄游规律,我们估计其洄游可能会按照一个大致的节奏出现。 我们用正态核对鲸鱼幼仔洄游数据进行核密度估计。 通过PL算法得到h的最优值为17.4,我们采用了121个样本中的20个,而书本上的结果为9.75.而UCV的结果同样可以计算。 2、插入法 对于一维核密度估计我们知道,最小化AMISE得到的窗宽为 因此h的估计会依赖于未知函数f,现可以提出多种方法来估计 Silverman提出一种初等的方法:把f替换成正态分布,该正态分布的均值为0,方差为样本方差。于是有 ,当k为标准正态核时。有 此方法称为Silverman大拇指法,作为产生近似的窗宽的一种方法,此方法是很有价值的。 (10.24中的 的经验估计是比Silverman大拇指更好的方法。基于核的估计量为 其中 为窗宽,L为用来估计 的充分可微的核函数。 的估计直接从(10.26)式可得。Sheather-Jones方法为: (1)用简单的大拇指法计算窗宽 ,该窗宽用来估计 (2)然后用10.24式计算窗宽h

文档评论(0)

9988871 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档