SPSS-02数据预处理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS-02数据预处理

第2章 数据预处理 数据预处理即当录入或读取数据后,对数据进行必要的清理(包括查错纠错、标志数据中的异常个案、变量和数据等)、转换、填补缺失值等,为后续统计分析应用打下良好的基础。 2.1 可视离散化 可视离散化用于为定量变量(数值型变量)创建分类变量(或定性变量),从而实现连续变量的离散化。 例如,调查居民的“年收入”水平,得到的结果是以元为单位的具体数字,有时用户比较关心的是占低收入(2000元以下),中等收入(2000~30000),高收入(30000 以上)的比重。 这时就需要将“年收入”变量可视离散化,创建具有三个类别的分类变量 SPSS的可视离散化有两类分段的方法: 直接输入分割点和根据条件自动生成分割点 直接输入分割点例题: 打开数据文件2-1,将年龄变量可视离散化,分青年(30岁以前)、中年(30~50岁)和老年(50岁以上)三类,生成分类变量ageint。 操作:打开文件2-1.sav,选择【转换】-【可视离散化】,在对话框中,将年龄变量选入要离散的变量框内,点击【继续】 在新出现的对话框内输入离散的变量名称age1,并添加标签“年龄段”,从中间的直方图可知年龄的分布情况。 在网格(G)下的“值”和“标签”列分别填写30,50,“青年”,“中年”,“老年”; 输入值后,可以用鼠标拖动直方图上的分割线,分隔值会做出相应调整,标签的生成也可点击对话框右下角的【生成标签】按钮,SPSS会自动生成标签。 点击【确定】 根据条件自动生成分割点: 在刚才的例题中,选择完age变量并并将其离散化为age1之后,直接点击对话框右下角的【生成分割点】按钮 出现生成分割点对话框,在此输入生成分割点的条件,有三种: 等宽度间隔:输入第一个分割点的位置和分割点数量,可视化分散会自动进行等间距分段 基于已扫描个案的等百分位:分割点数量或宽度只要输入一个即可,另一个会自动生成 例如,想把年龄分成3段,在分割点数量处输入数字2,则宽度%后的文本框中会自动生成33.33%。 基于已扫描个案的平均和选定标准差处的分割点:可根据均值和选定的标准差进行分段,如果选择“+/-1标准差”,则将数据分为三段:均值减一倍标准差,均值,均值加一倍标准差。 单击【应…】,则返回到上级对话框,单击【生成标签】按钮 设置完成后,单击【确定】 实验题:打开数据文件1991 US General Social Survey .sav,该文件为美国1991年普遍社会调查数据。将文件中的年龄变量可视离散化,创建一个包括青年、中年、老年三个类别的新分类变量“年龄段”(用两种方法实现:直接输入分割点和根据条件自动生成)。 2.2 缺失数据的处理 产生原因:在数据收集阶段,收集者没有收集到相应的数据; 应答者拒绝回答该问题,比如该问题涉及个人隐私; 该问题对该应答者不适用,比如针对的是女性,而回答者是男性 应对缺失数据,应想办法回到数据收集阶段尽量收集到该数据,如果缺失数据不影响统计分析,则不对缺失数据进行处理;否则要处理缺失数据 SPSS提供了下列填补缺失数据的处理方法: 序列均值; 临近点均值; 临近点中位数; 线性插值法; 点处的线性趋势 例题:打开数据文件cars.sav,该数据文件记录了不同汽车属性的数据,第一列mpg(每加仑汽油行驶的里程数)有一些缺失值。 填补缺失值可以选择【转换】-【替换缺失值】,在替换缺失值对话框 中,将mpg选择到新变量对话框中,替换后的变量默认为mpg-1,选择替换方法,【方法(M)】框中有5种填补缺失值的方法。单击【确定】按钮。 返回原文件,最后一列出现新的变量mpg1,所有的缺失值将以选定的方法填充 练习:单击【检索最近使用的对话框】快捷方式,尝试采用不同缺失值填补方法,形成变量mpg1,mpg2,mpg3,mpg4选择不同填补方法后,需要单击【更改(H)】按钮。 单击【确定】 2.3 数据校验 在统计分析之前,一般都会先做数据校验,即找出错误数据并查找出现错误的原因。 如果数据没有收集到,则尽量想办法补全,如果是记录错误则重新录入;如果数据确实有误,则可将这些数据设置为缺失值……。这个过程称为数据校验。 例题:数据文件demographic.sav,显示的记录如下表所示,这里定义18~70为年龄有效值,性别男用1表示,女用2表示,进行数据校验 观察这5个案例可以看出,前两个个案的前三个标志变量重复(不应该重复);记录5的个人id缺失,且该记录的性别和年龄均为无效。 数据验证功能可以通过【数据】-【验证】-【验证数据】实现 操作:打开数据文件demographic.sav,选择【数据】-【验证】-【验证数据】,得到“验证数据”对话框,默认显示“变量”标签 其中,“个案标识变量”为标志个案的变量,它可以唯一

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档