探寻泊松分布与零堆积泊松分布的优劣.docVIP

下载本文档

15
0
约2.51千字
约 5页
2016-03-02 发布于北京
举报
版权申诉

探寻泊松分布与零堆积泊松分布的优劣.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

探寻泊松分布与零堆积泊松分布的优劣.doc

探寻泊松分布与零堆积泊松分布的优劣　　摘要：本文在给出零堆积泊松分布定义的基础上，讨论了其与泊松分布在拟合零出现较多的计数数据时的优劣，最终得出结论。　　关键词：泊松分布；零堆积泊松分布；参数估计　　在实际生活中，我们都会遇到种类繁多的计数数据，对于不同的数据根据数学的方法，可以把他们用数学的模型拟合出来，以便于对数据进行猜测与预期。一般情况下，泊松分布以及泊松过程对于描述这些社会管理活动、生产活动等产生的计数数据具有非常好的拟合效果。　　为了解各高校学生对期末考试的重视程度，有人对某高校所有本科在读学生2012年下半年期末考试每场缺考人数做了追踪调查与统计。已知此校每个时间段共有考场78个，每个考场每天平均进行4场考试，从刚开始考试到全部学生考完所用时间为15天，即知道此学校本次期末考试总共进行了4680场考试。现取n=4680为样本容量，k表示缺考人数，nk为在k下的考试场数，p为频率，且得到追踪统计的结果如下：　　k 0 1 2 3 4 　　nk（观测频数） 2985 1341 300 47 7 　　我们首先用泊松分布来模拟此组数据。用泊松分布的极大似然估计法计算λ的值，步骤如下：　　此问题的似然函数为：L（λ）=■P（X=i）=■■e■ 　　=■e■ 　　则对数似然函数为：lnL=-nλ+■xilnλ-■ln（xi！）　　由■λ=■=-n+■■xi=0，得到■≈0.4509 　　由此可计算服从此分布的理论数据如下：　　k 0 1 2 3 4 　　■k（理论频数） 2981.6 1344.1 303.3 45.4 5.2 　　对相同的数据，我们用零堆积泊松分布模型拟合，结果会是怎样呢？　　下面我们就用零堆积的泊松分布来拟合此组数据。首先先介绍一下零堆积泊松分布的概念及参数估计。　　随机变量X是以概率p服从退化的零点分布，以概率1-p服从参数为λ的泊松分布，其中p∈（0，1），我们称这样的分布为零堆积泊松分布，并记X～ZIP（λ，p），x的概率分布为　　P（X=0）=p+（1-p）e-λ，k=0，P（X=k）=（1-p）e-λλk/k！，k=1，2，…. 　　其参数的极大似然估计法如下：　　若随机变量X～ZIP（λ，p），并且X1，X2，…，Xn是来自ZIP（λ，p）的一个样本，观测值为x1，x2，…，xn，取值为[0，k]之间的整数。令x=（x1，x2，…，xn），X=■Xi/n，其似然函数为L（λ，p；x）=■（p+（1-p）e-λ）■ 　　（（1-p）e-λλ■/xi！）■，其对数似然函数为：lnL（λ，p；x）=Ixi=0（xi）■ln（p+（1-p）e-λ）+Ixi≠0（xi）■ln（1-p）e-λλxi/xi！），其中I[A]（x）=1，若x∈A，0，若x？埸A. 　　令φ=（1-p）（1-e-λ），用ni表示n个样本X1，X2，…，Xn中取值为i的样本数，i是取值为[0，k]之间的整数，于是对数似然函数变换如下：　　lnL（λ，φ）=n0ln（1-φ）+■ni[ln（1-e-λ）-1φ]+ilnλ-λ-lni！] 　　=n0ln（1-φ）+（n-n0）lnφ+■ni[-ln（1-e-λ）]+ilnλ-λ-lni！] 　　那么只需解似然方程组：　　■lnL（λ，φ）=-■+■■=0，　　■lnL（λ，φ）=-■■ni+（■ini）■-■ni=0. 　　因为■ni=n，并且■ini=nX，　　整理方程得到■=（n-n0）/n，（n-n0）■+n■（e-■-1）=0，■=1-■/（1-e-■）. 　　现在我们假设X服从零堆积泊松分布，并根据以上结论计算出零堆积泊松分布下的参数估计值■，■，■。其中，n=4680，n0=2985，X=■Xi/n=■≈0.4509，进而得到：■≈0.3622■≈0.4553■≈0.0097 　　由此，算出各个样本点的理论频数如下：　　k 0 1 2 3 4 　　■k（理论频数） 2984.9 1340.8 301.9 46.3 6 　　现在我们将观测值与这两种分布的理论值汇总进行比较：　　k 0 1 2 3 4 　　nk（观测频数） 2985 1341 300 47 7 　　■k（泊松分布理论频数） 2981.6 1344.1 303.3 45.4 5.2 　　■k（零堆积泊松分布理论频数）2984.9 1340.8 301.9 46.3 6.6 　　显然可以得到，零堆积泊松分布的理论频数比泊松分布的理论频数更加接近实际观测频数。为了更进一步说明用哪个模型来模拟零出现较多的一组计数数据比较有效，我们用χ2=■（nk-■k）2/■k计算出它们各自的χ2值（χ2值代表通常的χ