第3章数据预处理精选.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 数据预处理 本章提要 数据正式处理之前,常需将数据进行预先处理。比如对数据进行选择、加权、合并等,以便提高效率、对数据进行有针对性的处理。本章介绍了数据的主要预处理过程,具体包括数据的排序、转置、拆分、合并、选择、加权和转换。 数学神题: ABCD * 9 DCBA 问:ABCD=? 3.1 数据的排序 有些过程运行以前,需要对数据按照变量值大小进行排序(Sort),如数据文件的拆分和合并等。在数据编辑器中输入原数据文件以后,执行以下操作,可实现对数据进行排序。在SPSS文件中,排序有两种,一种是直接改变样本顺序(Sort Cases),一种是给出排序的顺序号码(rank case)。 【例3-1】打开1995年世界各国人口经济资料(World95.sav)文件,以第一种方法进行排序。在主菜单中单击Data菜单选项,打开该菜单条;单击Sort Cases选项,打开Sort Cases对话框(如图3.1所示)。从对话框左边窗口选择一变量(如人口密度density),将该变量名送到Sort by窗口中。这就可将所选变量,根据变量值的大小对原文件进行排序。选择了density变量作为Sort by变量,意味着将根据density变量中数据的大小,对“World95”文件中的数据进行排序。 在Sort Order方框中,有两种排序选择方式。Ascending和Descending分别表示将根据所选变量按从小到大,或从大到小的顺序对原数据中的各样本进行排序,这里选择后者。 可以选择多个变量作为Sort by变量,根据这多个变量数据的大小对原数据文件中的个案进行排序。但排序结果与这些变量输入Sort by窗口的先后顺序有关。最先输入的变量作为第一排序变量,其后输入的变量作为第二、第三,……,第n排序变量。SPSS按照先后顺序,首先根据第一Sort by变量对数据进行排序,然后对这一排序结果中,大小相同的第一Sort by变量所对应的样本,根据第二Sort的变量及排序方式进行排序,后面依次类推。若选择人口密度(density)变量和城市人口比例(urban)变量作为Sort by第一、第二排序变量,前者为降序,后者为升序;还可选择人口数(populatn)作为第三排序变量,排序方式为降序,结果见图3.2。可以看出,spss首先根据density变量进行排序,完成以后,对于density变量值相同的个例,再根据urban变量进行排序,并对density、urban变量值都相同的个例,按populatn从大到小进行排序。如果将第一排序变量与第二排序变量交换,就会产生不同的排序结果,同学们不妨作一些对比。 还有一种数据排序的方法是产生一个新变量,给出原数据的序号,而并不打乱原变量的顺序,这种方法往往比前一种方法更为常用有效,这种方法见图3.2中Transform下的Rank Cases对话框(图3.3)。在Variables 对话框中输入主要排序变量,排序的方向由Assign Rank而确定,By后表示按照…变量进行分组排序,Ties是对同值排序时的处理方法,若打开对话框,可取几个序号平均(Mean),最小序号(Low)、最大序号(High),或仅用一个序号(Sequential ranks to unique values)作为同值序号。 若进一步打开Rank Types对话框(图3.4)可得秩次编码方法的选择,Rank是新变量值即秩——排序号,新变量名为原变量名前加r;Fractional rank新变量值为秩除以所有合法值的观察个案数之和;Fractional rank as %是在上述基础上再乘以100;Ntile是分段排序,如果后面输入为5,则低于20%的观察量被赋值为1、位于20-40%的观察量被赋值为2……、高于80%的观察量被赋值为5;Sum of case weights新变量值等于各观察量权重之和;Savage score新变量值是依据指数分布所得原始分数,新变量名为原变量名前加s。这里用得较多得是Rank、Ntile、Fractional rank as %等。 3.2 数据的转置 数据转置(Transpose),如矩阵转置,将行列互换,使原来的行变量变成列变量,同时将列变量转变为行变量。有些新学员输入时将调查样本按列输入,使行变成变量,列变成样本。这就需要进行转置,否则无法进行统计及运算。 数据转置的具体方法是单击图3.2主菜单下Data→Transpose↙,打开图3.5对话框。在左边窗口中选择并单击那些拟转置变量的变量名,再单击右箭头键,把选定的变量移到Variable窗口中。单击“OK”按钮,会弹出一对话框提示“只选择了所有变量中的一部分,实施转置以后,未被选择的变量在新的文件中将会

文档评论(0)

2226657222 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档