SPSS学习系列09.缺失值处理.docx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

.

09. 缺失值处理

空缺值(用“.”表示)和输入错误值,都属于缺失值范畴。输入错误值需要做“数据检验”来发现:

【分析】——【描述统计】——【描述】和【频率】

【图形】——【旧对话框】——【箱图】

观察极小、极大值、频率、异常值等来判断。例如,性别“男=1,女

=2”,若极大值出现3,则是输入错误值;箱线图或3σ原则发现的异常值,则要先改成缺失值。

缺失值的处理方法通常有四种。

一、删除有缺失值的个案

删除有缺失值的个案,或在具体统计分析时的【选项】——【缺失值】框选择某种处理方法:

.

.

①按列表排除个案——只要任何一个变量含有缺失值,就要剔除出所有因变量或分组变量中有缺失值的观测记录;

②按对排除个案——同时剔除带缺失值的观测量及与缺失值有成对关系的观测量(对照分析);

③使用均值替换——使用该变量的均值替换缺失值。

二、替换缺失值

SPSS提供了5种简单替换缺失值的方法:

序列均值——该变量的有效观察值的平均数;

临近点的均值——该缺失值前后n个观察值的平均数;

临近点的中位数——该缺失值前后n个观察值的中位数;

线性插值——该缺失值前后观察值建立插值直线确定【同取n=1的(2)】;

点处的线性趋势——以编号为自变量用线性回归法预测值。现有数据文件:

.

.

【转换】——【替换缺失值】,打开“替换缺失值”窗口,将变量“统计成绩”选入【新变量】框;

【名称和方法】框,设定新变量名称“统计成绩_1”,方法选“序列均值”

点【确定】,得到

注意:若某个案的缺失值较多最好删除该个案,而不是替换其缺失值。

.

.

三、缺失值分析

SPSS中更高级的处理缺失值的方法是缺失值分析,它能够

缺失值的描述和快速诊断:

用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例是多少,是否与其它变量取值有关,从而得知这些缺失值出现是否会影响分析结论。

得到更精确的统计量:

提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量更加可靠。

用估计值替换缺失值:

使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。

【缺失值分析】实例操作,使用SPSS20自带的实例文件:telco_missing.sav

.

.

【分析】——【缺失值分析】,打开“缺失值分析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】

注意:最大类别(最大分类数)默认为25,超过该数目的分类变量将不引入分析。

点【描述】,打开“描述统计”子窗口,用来设置要显示的缺失值描述统计量。

勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”,点【继续】

.

.

点【模式】,打开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。

勾选“按照缺失值模式分组的表格个案”;

因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据,“家庭收入”含有大量缺失值,将这些变量选入【附加信息】;

.

.

.

.

.

其它保持默认,点【继续】

回到原窗口,勾选【估计】框中的“EM”和“回归”,其它默认设置。点击【EM】或【回归】按钮可以修改其设置

分布

@正态分布世:):·一...一...一...一...一...鲤....

@正态分布世:)

.一....一..一....一.......一 ,

?混台正态但)涅古比例心).标准芭比(P)

?竺t1Udent1st(S)

自由庋正『.一

酝 妇 Q): [2:s

巳保存完成数据岂)

@创建帝店枚摆争的卫

卧据罪名枕(AI.

@亏入新教摆文{牛(旦t

三五勹

回 三邑

估计润节

@残[差应.一...一...一...一...一.

@残[差应

.一...一...一...一...一....

?晋通变晕俋)

?旦tud印Et变昼(S)

巨曰克巳 15

? 和 Q)

巴 录六预割程序数 ):

巳保存完成数摆也)

@创建汀符灯居#言也

数据异名拚(A

@写入新驳摆文i(旦}

文牛

回邑邑

注意:若要保存替换缺失值之后的数据,需要勾选“保存完成数据”:创建新数据集并命名,或写入新数据文件。

另外,默认使用所有变量进行分析,若要选择部分变量,可点【变量】按钮修改。

点【确定】,得到输出结果:

N

均值

标准差

计数

缺失

百分比

极值数目a

tenure

968

文档评论(0)

mph + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海谭台科技有限公司
IP属地上海
统一社会信用代码/组织机构代码
91310115MA7CY11Y3K

1亿VIP精品文档

相关文档