SPSS-02数据预处理.ppt

下载文档 降价啦

21
0
约4.49千字
约 27页
2017-08-14 发布于湖北
举报
版权申诉
保障服务

SPSS-02数据预处理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SPSS-02数据预处理

第2章数据预处理数据预处理即当录入或读取数据后，对数据进行必要的清理（包括查错纠错、标志数据中的异常个案、变量和数据等）、转换、填补缺失值等，为后续统计分析应用打下良好的基础。 2.1 可视离散化可视离散化用于为定量变量（数值型变量）创建分类变量（或定性变量），从而实现连续变量的离散化。例如，调查居民的“年收入”水平，得到的结果是以元为单位的具体数字，有时用户比较关心的是占低收入（2000元以下），中等收入（2000~30000），高收入（30000 以上）的比重。这时就需要将“年收入”变量可视离散化，创建具有三个类别的分类变量 SPSS的可视离散化有两类分段的方法：直接输入分割点和根据条件自动生成分割点直接输入分割点例题：打开数据文件2-1，将年龄变量可视离散化，分青年（30岁以前）、中年（30~50岁）和老年（50岁以上）三类，生成分类变量ageint。操作:打开文件2-1.sav，选择【转换】-【可视离散化】，在对话框中，将年龄变量选入要离散的变量框内，点击【继续】在新出现的对话框内输入离散的变量名称age1，并添加标签“年龄段”，从中间的直方图可知年龄的分布情况。在网格（G）下的“值”和“标签”列分别填写30，50，“青年”，“中年”，“老年”；输入值后，可以用鼠标拖动直方图上的分割线，分隔值会做出相应调整，标签的生成也可点击对话框右下角的【生成标签】按钮，SPSS会自动生成标签。点击【确定】根据条件自动生成分割点：在刚才的例题中，选择完age变量并并将其离散化为age1之后，直接点击对话框右下角的【生成分割点】按钮出现生成分割点对话框，在此输入生成分割点的条件，有三种：等宽度间隔：输入第一个分割点的位置和分割点数量，可视化分散会自动进行等间距分段基于已扫描个案的等百分位：分割点数量或宽度只要输入一个即可，另一个会自动生成例如，想把年龄分成3段，在分割点数量处输入数字2，则宽度%后的文本框中会自动生成33.33%。基于已扫描个案的平均和选定标准差处的分割点：可根据均值和选定的标准差进行分段，如果选择“+/-1标准差”，则将数据分为三段：均值减一倍标准差，均值，均值加一倍标准差。单击【应…】,则返回到上级对话框，单击【生成标签】按钮设置完成后，单击【确定】实验题：打开数据文件1991 US General Social Survey .sav，该文件为美国1991年普遍社会调查数据。将文件中的年龄变量可视离散化，创建一个包括青年、中年、老年三个类别的新分类变量“年龄段”（用两种方法实现：直接输入分割点和根据条件自动生成）。 2.2 缺失数据的处理产生原因：在数据收集阶段，收集者没有收集到相应的数据；应答者拒绝回答该问题，比如该问题涉及个人隐私；该问题对该应答者不适用，比如针对的是女性，而回答者是男性应对缺失数据，应想办法回到数据收集阶段尽量收集到该数据，如果缺失数据不影响统计分析，则不对缺失数据进行处理；否则要处理缺失数据 SPSS提供了下列填补缺失数据的处理方法：序列均值；临近点均值；临近点中位数；线性插值法；点处的线性趋势例题：打开数据文件cars.sav，该数据文件记录了不同汽车属性的数据，第一列mpg（每加仑汽油行驶的里程数）有一些缺失值。填补缺失值可以选择【转换】-【替换缺失值】，在替换缺失值对话框中，将mpg选择到新变量对话框中，替换后的变量默认为mpg-1，选择替换方法，【方法（M）】框中有5种填补缺失值的方法。单击【确定】按钮。返回原文件，最后一列出现新的变量mpg1，所有的缺失值将以选定的方法填充练习：单击【检索最近使用的对话框】快捷方式，尝试采用不同缺失值填补方法，形成变量mpg1,mpg2,mpg3,mpg4选择不同填补方法后，需要单击【更改（H）】按钮。单击【确定】 2.3 数据校验在统计分析之前，一般都会先做数据校验，即找出错误数据并查找出现错误的原因。如果数据没有收集到，则尽量想办法补全，如果是记录错误则重新录入；如果数据确实有误，则可将这些数据设置为缺失值……。这个过程称为数据校验。例题:数据文件demographic.sav，显示的记录如下表所示，这里定义18~70为年龄有效值，性别男用1表示，女用2表示，进行数据校验观察这5个案例可以看出，前两个个案的前三个标志变量重复（不应该重复）；记录5的个人id缺失，且该记录的性别和年龄均为无效。数据验证功能可以通过【数据】-【验证】-【验证数据】实现操作:打开数据文件demographic.sav，选择【数据】-【验证】-【验证数据】，得到“验证数据”对话框，默认显示“变量”标签其中，“个案标识变量”为标志个案的变量，它可以唯一