SPSS学习系列09.缺失值处理.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品文档 精品文档 PAGE PAGE19 精品文档 PAGE . 缺失值办理 空缺值(用“.”表示)和输入错误值,都属于缺失值范围。 输入错误值需要做“数据查验”来发现: 1)【剖析】——【描绘统计】——【描绘】和【频次】 2)【图形】——【旧对话框】——【箱图】 察看极小、极大值、频次、异样值等来判断。比如,性别“男=1,女 =2”,若极大值出现3,则是输入错误值;箱线图或 3σ原则发现的异 常值,则要先改成缺失值。 缺失值的办理方法往常有四种。 一、删除有缺失值的个案 删除有缺失值的个案,或在详细统计剖析时的【选项】——【缺失值】框选择某种办理方法: . . ①按列表清除个案——只需任何一个变量含有缺失值,就要剔除出所有因变量或分组变量中有缺失值的观察记录; ②按对清除个案——同时剔除带缺失值的观察量及与缺失值有成对关系的观察量(比较剖析); ③使用均值替换——使用该变量的均值替换缺失值。 二、替换缺失值 SPSS提供了5种简单替换缺失值的方法: 1)序列均值——该变量的有效察看值的平均数; 2)邻近点的均值——该缺失值前后n个察看值的平均数; 3)邻近点的中位数——该缺失值前后n个察看值的中位数; 4)线性插值——该缺失值前后察看值成立插值直线确定【同取n=1的(2)】; 5)点处的线性趋势——以编号为自变量用线性回归法预测值。 现有数据文件: . . 1.【变换】——【替换缺失值】,翻开“替换缺失值”窗口,将变量 “统计成绩”选入【新变量】框; 2.【名称和方法】框,设定新变量名称“统计成绩 _1”,方法选“序 列均值” 3.点【确定】,得到 注意:若某个案的缺失值较多最好删除该个案,而不是替换其缺失值。 . . 三、缺失值剖析 SPSS中更高级的办理缺失值的方法是缺失值剖析,它能够 1)缺失值的描绘和迅速诊疗: 用灵活的诊疗报告来评估缺失值问题的严重性,用户能够察看到 它们在哪些变量中出现,比率是多少,是否与其余变量取值有关,进而得悉这些缺失值出现是否会影响剖析结论。 2)得到更精准的统计量: 提供了多种方法用于估计含缺失值数据的均值、有关矩阵或协方 差矩阵,经过这些方法计算出的统计量更为可靠。 (3)用估计值替换缺失值: 使用EM或回归法,用户能够从未缺失数据的散布情况中推算出缺失数据的估计值,进而能有效地使用所有数据进行剖析,来提高统计结果的可信度。 【缺失值剖析】实例操作,使用 SPSS20自带的实例文件: telco_missing.sav . . 1.【剖析】——【缺失值剖析】,翻开“缺失值剖析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】 注意:最大类别(最大分类数)默认为25,超过该数目的分类变量将不引入剖析。 点【描绘】,翻开“描绘统计”子窗口,用来设置要显示的缺失 值描绘统计量。 勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示 变量形成的分组进行的 t查验”和“为分类变量和指示变量生成交错 表”,点【持续】 . . 点【模式】,翻开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。 勾选“按照缺失值模式分组的表格个案”; 因为“教育程度”“、退休”和“性别”中的缺失模式似乎影响数据“,家 庭收入”含有大量缺失值,将这些变量选入【附加信息】; . . 其余保持默认,点【持续】 回到原窗口,勾选【估计】框中的“EM”和“回归”,其余默认设置。点击【EM】或【回归】按钮能够改正其设置 . . 注意:若要保留替换缺失值之后的数据,需要勾选“保留达成数 据”:创建新数据集并命名,或写入新数据文件。 此外,默认使用所有变量进行剖析,若要选择部分变量,可点【变 量】按钮改正。 点【确定】,得到输出结果: 单变量统计 N 均值 标准差 缺失 极值数目a 计数 百分比 低 高 tenure 968 35.56 21.268 32 3.2 0 0 age 975 41.75 12.573 25 2.5 0 0 address 850 11.47 9.965 150 15.0 0 9 income 821 71.1462 83.14424 179 17.9 0 71 employ 904 11.00 10.113 96 9.6 0 15 reside 966 2.32 1.431 34 3.4 0 33 marital 885 115 11.5 ed 965 35 3.5 retire 916 84 8.4 gender 958 42 4.2 a.高出范围(Q1-1.5*IQR ,Q3+1.5*IQR )的案例数。 提供了数据的一般特点,给出了所有剖析变量缺失数据的频数、 百分比,定

文档评论(0)

zdq0037 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档