调查中零频数过多的统计分析方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第34卷 第5期 绵阳师范学院学报 Vol.34 No.5 2015年5月 Journal of Mianyang Normal University May. ,2015 调查中零频数过多的统计分析方法 赵国敏,李国东 (新疆财经大学,乌鲁木齐 830012) 摘 要:无论是在自然科学领域还是在人文社会科学领域,我们会遇到各种各样的计数数据. 对于社会生 活、生产、管理中的一些计数数据通常是用泊松分布以及泊松过程来描述具有非常好的拟合效果. 然而实际环境 中,由于受各种因素影响与制约,出现了很多频数为零的数据. 此时对含零特别多的计数数据,我们仍用泊松回归 [1] 模型拟合就有些不合适了 ,因此人们开始构造新的模型,其中对于这种数据拟合效果比较好的一种模型就是零 过多泊松分布模型( [3,5] ero-Inflated Poisson Distribution) . 关键词:零过多泊松分布( IP);泊松分布;用车发生问题次数 中图分类号:O212 文献标志码:A 文章编号:1672-612x(2015)05-0008-04 1 资料来源 大陆汽车俱乐部有限公司跟踪了8700 位车主在2007 年全年的用车情况,总结了2007 年中国汽车问 题使用年度报告. 报告显示:在这些车主的用车过程中,有2895 位车主的汽车发生了问题,发生问题车辆 数约为样本总量的33.28%. 也即没有发生问题的车辆数约占样本总量的66.72%. 调查得知平均每辆车 发生问题的次数约为0.72次,如果用泊松分布来拟合( =0.72),则汽车发生问题次数K =0 的概率约为 λ 49.74%. 对所得数据进行泊松检验,p 值远小于0.001,数据不符合泊松分布. 为了进一步说明该数据不符合泊松分布,还可把观测值的分布与模拟泊松分布数据相比较(如表 1), 由图1可看出观察值与泊松分布拟合比较差. 表1 拟合数据相比 Tab.1 Comparison of fitting data K 0 1 2 3 4 5 观测值nk 5805 1067 897 567 260 104 模拟泊松分布数据n 4327 3016 1132 266 44 5 pk 2 零过多泊松分布模型实例应用 2.1 零过多泊松分布模型 由以上数据及图表可以看出观测值车辆发生问题次数为零的数 据明显偏多,此时仍用泊松分布来拟合就不合适了,因此人们开始构 造新的模型,其中对于这种数据拟合效果比较好的一种模型就是零 过多泊松分布模型( ero-InflatedPoissonDistribution),IP模型是目 前情况下处理零过多资料常用的一种分析方法. 此模型是由一个在 图1 拟合数据相比 零处具有概率质量的退化分布和一个普通泊松分布混合形成的. IP Fig.1 Comparison of fitting data 收稿日期:2014 -02-20 作者简介:赵国敏(1988- ),女,河北人,硕士研究生,研究方向:数据挖掘与分析; 通讯作者:李国东,男,黑龙江人,教授,研究生导师,研究方向:数据挖掘与分析 * 赵国敏等:调查中零频数过多的统计分析方法

文档评论(0)

搬运工 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档