插补算法在缺失数据统计中的应用.docx

插补算法在缺失数据统计中的应用.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
插补算法在缺失数据统计中的应用 0 确定插补值的方法 缺陷数据是指因各种原因获得的数据,也称为不回应数据。缺陷数据的补充意味着选择与缺失数据相关的数据,并将其插回原始数据的位置。首先,我们必须减少由于数据不足而造成的估计误差。因此,应尽可能接近所确定的插值值。事实上,我们不知道缺失数据的真正值。因此,我们只能确定插值方法的合理性和有效性。其次,我们必须构建完整的数据集。在调整前,由于值不足,原始数据集中存在许多“错误”,这使使用统计方法变得困难。为了提高效率,对整个研究进行分析,并使用同一级别的回答单位的信息来提供替换值。这是补充基本想法。 1 不同插补方法对于插补量全面的分析,是目前主流 常见的插补方法有均值替换、回归替换、最大期望、多重替代等,这些方法都能为每一个缺失的或不一致的值生成一个单一的插补值,但也都会在某种程度上扭曲插补变量的原始分布,并导致不适当的方差估计.为了更好地说明各种方法的优缺点,我们选用《2000-2006年西安市主要统计指标》中的一些主要指标进行分析.首先选用原始数据作为对照组,而后人为令其部分数据缺失,再进行几种插补方法的实例演示,比较其优缺点. 1.1 均值插补的缺陷 采用均值插补方法进行插补,我们用其所有非缺失值的均值做替代,两者的T检验理论上拟合的很不错(F=0,T=0.996,均值方差=171.564).但观测具体的插补数值,有些明显与实际值相差甚远,只能说这种显著,是总体上的显著,而要修补的个案值却并非如此.所以,均值插补还存在着一定的缺陷. 1.2 计算平均值的插值修改 为了更好地“修复”原值,我们引入层次聚类方法,首先对数据进行归类分层,然后利用组内均值进行替代. 1.2.1 内部平均值法 层次方法,即创建一个层次以分解给定的数据集.采用抽样技术中 “组间方差最大,组内方差最小” 的思想进行分组. 1.2.2 —实例比较 我们依然用文献做分析,根据层次聚类方法,用马氏距离法将7年数据分为两层,分层结果为:2000年—2003年为一层;2004年—2006年为另一层. 利用均值插补的思想,对以上数据进行分层后的插补,之后与原值对比,其方差和均值T值检验分如表1所示. 由表1可明显看出,层内均值法的效果明显优于普通均值法:总体方差减小到169.564,T值也由以前的0.996上升到0.998. 1.3 在上层阶级中建立平衡法的概念和改进 1.3.1 .层内均值法4.2间的差异 虽然层内均值法与普通均值法相比,总体效果有明显的改进,但有些数据的填补与其真值还是有差距.层内均值法对相互独立的数据效果明显,而用其估计有相关关系的数据却有些勉强. 1.3.2 采用时间序列补偿方法 (1) 移动平均方法 选取适当的年份周期,如3年、5年等,对历史系列数据按该周期逐个进行算术平均. (2) 时间序列相关关系的检验 通过对不同年份的数据给予不同的权,用加权平均平滑人口数据,具体公式如下: ?yt+1=St+αyt+(1-α)St-1y?t+1=St+αyt+(1?α)St?1 利用以上公式,可以求出任意一个缺失值.最终拟合结果分析如下: 两总体的配对检验效果非常显著:双边检验值为1,T检验已拟合到0,而且两者的均值仅仅相差0.065 7,说明时序插补方法更适合具有时间序列相关关系的插补. 1.4 改进方法 1.4.1 再用结果t检验 平均差是指各数据对平均数的离差绝对值的平均数. 将数据代入公式:A.D=∑|x-ˉx|n=48.9657=6.995A.D=∑|x?xˉ|n=48.9657=6.995,如表2所示. 再用结果进行T检验比较. 1.4.2 均差修补效果对比 T检验是用于小样本的两个平均值差异程度的检验方法.根据T值与差异显著性关系表,结合我们的数据,可得出如下结论,见表3-6. 修改比较: 由表3-6可看出,虽然两者的双边检验均为0.356.但对比均值,修正后的比时序插补的效果更接近原值的均值,而且置信区间上下限变窄,从而说明均差修补对时序序列效果更明显. 以上的分析只是对样本均值的T检验,而我们需要研究的是个案的“修复”、“还原”,所以,还要用到个案的T值对比.两者样本容量均为7,利用T公式,代入数值,得到原值和时序值的t0=0.963;原值和时序修改的t1=0.982.即时序修改的t1值明显优于t0值,说明在时间序列分析中引入平均差是非常合理的. 2 多重插补的应用意义 多重插补法采用模拟数据的方式,尽可能地提取调查中的有效信息,提出了处理缺失数据的一个新思路.与单一插补法相比,多重插补法具有一些明显的优点:首先,该方法利用多个插补值之间的变异性反映缺失值的不确定性,进而为估计抽样误差提供了依据;其次,多重插补可以保持研究变量之间的相关性,不像单一插补那样容易扭曲变量间的关系,这样,

文档评论(0)

139****9425 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档