- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spss的数据预处理
数据预处理的目的:
在数据文件建立好后,通常还要对待分析的数据进行必要的预加工处理,这是数据分析过程中不可缺少的一个关键环节。数据的预加工处理是服务与数据分析和建模的,需要解决的问题如下:
1、缺失值和异常数据的处理。
2、数据的转换处理。数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据或对数据原有分布进行转换等。
3、数据抽样。从实际问题、算法或效率等方面考虑,并非收集到的所有数据(个案)在某项分析中都有用途,有必要按照一定的规则从大量数据中选取部分样本参与分析。
4、选取变量。并非所有数据项(变量)在某项分析中均有意以,选取部分变量参与分析是必要的。
Spss提供了一些专门的功能辅助用户实现数据的预加工处理工作,通过预处理还可以使用户对数据的总体分布有所了解。
二、数据预处理步骤:
1、数据的排序:
(1)数据排序的目的:
a、通常数据编辑窗口中个案的前后次序是由数据数录入的先后顺序决定的,数据排序便于数据的浏览,有助于了解数据取值状况、缺失值数量的多少。
b\、通过数据排序能够快速找到最大值和最小值,进而可以计算出数据的全距,快速把握和比较数据的离散程度。
c、通过数据排序能够快速发现数据的异常值。
(2)、数据排序的步骤:
a、选择菜单:【Date】→【Sort Cases】
b、指定主排序量到【Sort by】框中,并选择【Sort Order】框中的选项指出
该变量按升序还是降序排序排序。【Ascending】表示升序,【Descending】表
示降序。
c、如果是多重排序,还要依次指定第二、第三排序变量及相应的排序规则。否
则本部可略。
排序窗口如下图:
图1
2、变量计算:
(1)变量计算的目的:
a、通过数据的转换处理,在原有数据的基础上,计算产生一些含量更丰富的新数
据。
b\、对数据的原有分布状态进行转换,由于数据分析和建模中某些模型对数据分布
有一定的要求,因此可以利用变量计算对原有数据的分布进行转换。
c、spss变量计算是在原有数据的基础上,根据用户给出的spss的算术表达式以及
函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。
(2)变量计算的操作步骤:
a、选择菜单:【Transform】→【Compute Variable】
出现如图2所示窗口:
图2
b、在【Numeric Exepression】框给出spss算术表达式和函数。可以手工输入也可以按窗口的按钮算数表达式和函数的输入工作。
c、在【Target Variable】框中输入存放结果的变量名。
d\、如果用户只希望对符合一定条件的个案计算产生变量,则按if按钮,出现如图3所示的窗口。选择【Include if case satisfies condition】选项,然后输入条件表达式,否则本步略去。
图3
3、变量的选取:
(1)数据选取的目的:
a、提高数据的分析效率。
b、检验模型。
(2)数据选取的步骤:
a、【Date】→【Select Case】
b、在【Select】框中选择选取方法。如图4所示:
图4
4、计数:
(1)计数的目的:
把握个案各方面的特征。
(2)计数的步骤:
a、选择菜单:【Transform】→【Count Values within Cases】如图5所示:
b、选择参与计数的变量到【Numeric Variables】框中。
c、在【Target Variable】框中输入存放技术结果的的变量名,并在【Target Label】框中输入相应的变量名标签。
图5
d、按Define Values 按钮定义计数区间,出现图6所示窗口。通过Add、Change\、Remove
按钮完成计数区间的增加、修改和删除。
e、如
文档评论(0)