- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非参数密度估计
第十章 非参数密度估计
密度估计的参数解是首先假设一个参数模型,X1,…,Xn~i.i.d. fXθ,其中θ为低维参数向量。然后通过一些估计方法得到θ,如极大似然估计,矩估计等等。然后到处密度函数。此方法的危险性在于初始假设模型的不正确可能导致严重的推断错误。
一种常见的非参数密度估计是直方图,他是一种分段常数的密度估计。另一种基本的密度估计可通过考虑密度函数如何将概率分配到各区间上受到启发,如果f足够光滑,我们假设f将某概率不但赋予给xi点,而且赋予给xi周围的一个区域。因此,要从X1,…,Xn~i.i.d. f估计f,将Xi周围区域的概率密度累加起来时合理的。
10.1 绩效度量
绩效度量是为了评价密度估计量的性质。令f为整个支撑区域上f的估计量,引入积分平方误差
ISEh=-∞∞fx-fx2dx
如果我们想讨论估计量的一般性质,那么在所有可能的样本上对ISEh进行平均是比较合理的。积分平均误差为
MISEh=E{ISEh}
其中的期望是关于分布f。因此MISEh可以看成是误差(ISEh)关于抽样密度的整体度量的平均值。又由期望和积分的可交换性,
MISEh=MSEhfxdx
其中
MSEhfx=Efx-fx2=varfx+biasfx2
biasfx=Efx-f(x)
MISE和ISE都可用来研究选择h值的准则。两者的好坏已知都有争论,详见
Birgit Grunda;?Peter Hallb;?J. S. Marronc. Loss and risk in smoothing parameter selection?
HYPERLINK /content/?Author=Peter+Hall \o View content where Author is Peter Hall Peter Hall and HYPERLINK /content/?Author=J.+S.+Marron \o View content where Author is J. S. Marron J. S. Marron. lower bounds for bandwidth selection in density estimation
10.2 核密度估计
一元核密度估计允许采取灵活的加权方案,即拟合
fx=1nhi=1nK(x-Xih) (10.6)
其中K为核密度,h为固定值,通常称为窗宽。一些常见的核为:
(10.6)的估计量为固定窗宽核密度估计。而窗宽的大小对估计量有很大的影响,小的窗宽会将密度分配得太局限于观测数据附近,导致估计密度函数有很多错误的峰值;而大的窗宽会将密度贡献分布得太开,从而会因光滑而遗失掉f的一些特征。
10.2.1 窗宽的选择
MISE等于积分均方误差。这表明窗宽的选择是偏差和方差的折衷
例 10.1(双峰密度)
实际上,我们只需对h试一串值,然后选择一个比较合适的。当然,我们希望得到一个相对正规的窗宽选择程序:如自动算法。
假设K是连续对称的概率密度函数,均值为0,方差0σK2∞.令R(g)表示给定函数g的粗超度的度量,定义为
Rg=g2(z)dz
然后假设RK∞且f足够光滑。即有二阶有界连续导数。
MISEh=varfx+biasfx2dx
Efx=1hKx-uhfudu=K(t)f(x-ht)dt
在上式中用Taylor级数展开
fx-ht=fx-htfx+h2t2fx2+o(h2)
因此
biasfx2dx=h4σK4Rf4+o(h4)
同样可以计算得到:
varfx=1nhfxRK+o(1nh)
将其对x积分得
varfx=RKnh+o(1nh)
因此
MISEh=AMISEh+o1nh+h4,
其中
AMISEh=RKnh+h4σK4Rf4
称为渐进均方误差,h最小化上式可得
h=RKnσK4Rf15
很多窗宽的选择方法依赖于优化或者找到关于h的函数的根,例如最小化AMISE(h)的一个近似量。
1、交叉验证
许多窗宽的选择是把fx作为 f的估计量而与h联系起来,用某个量Q(h)量化,如果Q表示根据对在某种意义上对观测数据的拟合程度,那么观测数据在计算fx和计算拟合程度时候用了两次,这样会对观测提供一个过于乐观的观点,为纠正这一问题,可以采用交叉验证,计算fx在第i个点的质量时,模型采用除去第i个点之外的所有数据拟合,令
f-iXi=1hn-1j≠iKXi-Xjh
表示Xi点处核密度估计量用除Xi外所有数据估计的密度。交叉验证中一种常见的Q的选择是伪似然
PLh=i=1nf-iXi
尽管此方法简单,但其得到的密度估计常常有太多的摆动且对异常值过于敏感。且其估计量很多时候是不相合的
另一种方法是将积分平方误差
文档评论(0)