数据部分缺失情况下的均值估计.pdfVIP

  • 7
  • 0
  • 约8.67千字
  • 约 4页
  • 2017-08-15 发布于安徽
  • 举报
第32卷第2期 江西师范大学学报(自然科学版) Vd.32No.2 2008年4月 OFJIANGXINORMALI黼RSrIY(NATURALSCIENCE) JOURNAL Apt.2008 文章编号:1000-5862(2008)02-0242-04 数据部分缺失情况下的均值估计 邓文丽,王立 (江西师范大学数学与信息科学学院,江西南昌330022) 摘要:某随机变量的观测值出现部分缺失时,辅助变量的存在常常可以有利于该随机变量的统计分析, 该文针对辅助变量和目标随机变量没有明确函数关系,但它们存在一定的相关性的情况,提出了目标随 机变量均值的一种新的估计方法,并利用随机模拟将它和完全记录分析所得的估计量进行了比较. 关键词:缺失数据;完全记录分析;相关系数;辅助变量 中图分类号:O212.1 文献标识码:A 1背景介绍 在实践工作中,常会因为某些原因导致数据缺失,只能观测到一部分数据,统计学中一般称为缺失数 据.对于缺失数据的研究至今已有不少成果.邵军对数据的缺失方式进行了总结…,根据“数据是否缺失”与 “观测值大小”是否有关,可以将缺失方式分为:完全随机缺失(MQ咀),随机缺失(MAR),协变量相关缺失 (Covariate-dependentMissing),不可忽略缺失(Nonignorable dent Missing). 中,x的样本是完整的,y的观测值出现了完全随机缺失,有一部分观测值丢失.用砚=l表示r/被观测到, analysis).因为 —生 1—卫 …i=1 i=1 1—卫 I z)=肛, …,(‰,‰)估计以·),得到估计量氕·),由此得到El,的估计量K={∑氕Xi).特别当E(y ¨i=l v(y l l , ● n 伸i=1 p)俨盯:/p乃.也就是说,基于模型分析比完全记录分析所得的估计更优.一般情况下,可以考虑用非参数的方法对 以上的讨论是利用X和l,之间的函数关系来改进EY的估计,而在实际应用中,经常出现这样的情况:2 个随机变量之间没有明确的函数关系,但却存在较强的相关性.如冷饮的销售量和儿童的事故数之间就有 较强的相关性,当天气由冷变热,冷饮的销售量会增加,儿童的户外活动会增多,事故次数也会上升,虽然冷 饮的销售量和儿童的事故数没有直接的函数关系,但因为它们都与一定范围内温度有正相关性,所以两者 收稿日期:2伽7-10-10 基金项目:全国统计科学研究计划(200r7LY043)资助项目. 作者简介:邓文丽(1974-),女,江西南昌人,副教授,主要从数理统计的研究. 第2期 邓文丽,等:数据部分缺失情况下的均值估计 之间的相关性也较大.针对这种情况下的完全随机缺失问题,本文的第2部分提供一种新的估计方法:在目 标变量和辅助变量没有明确的函数关系却有一定的相关性的情况下,尝试从af=0的那些记录中找回一些 和Ey有关的信息,利用缺失记录对瓦进行改进.通过方差的比较发现,新的估计方法

文档评论(0)

1亿VIP精品文档

相关文档