- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分组数据的对数正态分布的参数估计
基于分组数据的对数正态分布的参数估计
摘要
本文介绍了一种对基于分组数据的对数正态分布进行参数估计的方法。所得估计具有良好的收敛性, 同时模拟结果也表明该方法的可行性。
关键词 分组数据; 对数正态分布; 参数估计
一、问题的提出
经典统计分析中, 总假设随机样本的观测值为一个确定的数值; 然而在实际应用中, 观测到的经常是分组数据。例如, 在生存分析的研究中, 就时常出现这种情况。记, 为落在区间中的样本数, 其中j= 1, 2, ?,k。假设样本来自于某个包含未知参数的分布, 所要解决的问题就是估计分布中的未知参数。但是对于大多数的分布族而言, 要解决这类问题都是比较困难的。
近年来, 对于区间数据的分析研究有很大的发展, 一些针对区间数据的参数估计方法也应运而。这些研究为进行分组数据的参数估计提供了更多的方法和思路。样本为威布尔分布时, 这类问题已经得到解。本文将讨论当样本来自对数正态分布时, 这类问题该如何解决。
二、参数最大似然估计及其算法
记为独立同分布随机变量,其密度函数为
它们分别落入区间,只能观测到落在该区间中的随机变量的数目 , 其中, j = 1, 2, ?, k , 。所要解决的问题是估计参数。
取,; 则仍为独立同分布随机变量, 其密度函数为
它们分别落入区间 , 而 则为落在区间 中的随机变量 的数目。不难看出包含了与相同的信息, 在下面的推导过程中, 将利用进行讨论。
记
可得似然函数
则
易得
分别令,。
得:
(1)
(2)
不难看出, 以上两式无法得到参数的明确表达式。这也是在处理这类问题时经常遇到的困难。为克服这一困难, 用EM 算法得出参数的估计。
EM 算法是一种迭代方法, 最初由Demp ster 等提出, 并主要用来求后验分布的众数(即最大似然估计) , 它的每次迭代由两步组成: E 步(求期望) 和M步(极大化)。记为未知参数。一般以表示的基于观测数据Y 的后验分布密度函数, 称为观测后验分布, 表示添加数据Z 后得到的关于H的后验分布密度函数, 称为添加后验分布。表示在给定和观测数据Y 下潜在数据Z 的条件分布密度函数。本文的目的是计算观测后验分布的众数。于是, EM 算法如下进行。记为第i+ 1 次迭代开始时后验众数的估计值, 则第i+ 1 次迭代的两步为:
E 步 将或 关于Z 的条件分布求期望, 从而把Z 积掉, 即
M 步 将极大化, 即找一个点
使
如此形成了一次迭代。将上述E 步和M 步进行迭代直至‖‖或‖‖充分小时停止。
三、利用EM 算法得出对参数的估计
为了便于表述, 记随机变量全体为X , 其总数为N , 观测结果为为落入区间的随机变量, h= 1, 2, ?, 。记随机变量全体为U ,其总数为N ,观测结果为Y,为落入区间的随机变量, h= 1, 2, ?, 。
E 步: 注意到这样一个事实,U 实际上已经包含了Y 所有的信息。所以有, 由随机变量的密度函数可得
的条件密度:
为了便于表述, 将记为。
则有
M 步: 将分别对求导,以求出使极大化的点。首先对 求导:
令可得关于的表达式:
(3)
再对求导:
令可得关于和的表达式:
(4)
利用式(3)、(4) 所得到的就是所要寻找的。这样就形成了一次迭代。反复利用式(3)、(4) 迭代公式, 就可以得到对参数的估计。
EM 算法的最大优点是简单和稳定, 其主要目的是提供一个简单的迭代算法来计算后验众数, 它的收敛性及其收敛结果是主要关心的问题。以下2个定理表明了利用EM 算法所得到的估计序列具有良好的收敛性, 且其收敛到的局部最大值。
记EM 算法得到的估计序列为 , i= 1, 2, ?, 。
定理1 EM 算法每次迭代后均有提高后验密度函数值,
。
定理2( 1) 如果有上界, 则收敛到某个;
(2) 如果关于和都连续, 则在关于L 的很一般的条件下, 由EM 算法得到的估计序列的收敛值是L 的稳定点。
证明 见文献[7]。
四、模拟结果
记为独立同分布随机变量,其密度函数为
其中, 。而。取迭代初值,, 进行4 次迭代。模拟结果见表1, 每次模拟均取2 000 个随机数。
表1 样本数为2 000 时的模拟结果
序号
1 0.0212 1.00409 2 0.00013 0.97555 3 -0.0026 1.00608 4 -0.0152 1.04115 5 0.0022 0.9755 6 0.0065 1.01725 7 0.0009 0.99795 8 -0.0145 0.99443 9 -0.019
文档评论(0)