第3章数据预处理精选.pptVIP

下载本文档

14
0
约1.31万字
约 32页
2017-02-15 发布于湖北
举报
版权申诉

第3章数据预处理精选.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章数据预处理本章提要数据正式处理之前，常需将数据进行预先处理。比如对数据进行选择、加权、合并等，以便提高效率、对数据进行有针对性的处理。本章介绍了数据的主要预处理过程，具体包括数据的排序、转置、拆分、合并、选择、加权和转换。数学神题： ABCD * 9 DCBA 问：ABCD=? 3.1 数据的排序有些过程运行以前，需要对数据按照变量值大小进行排序(Sort)，如数据文件的拆分和合并等。在数据编辑器中输入原数据文件以后，执行以下操作，可实现对数据进行排序。在SPSS文件中，排序有两种，一种是直接改变样本顺序（Sort Cases），一种是给出排序的顺序号码（rank case）。【例3-1】打开1995年世界各国人口经济资料（World95.sav）文件，以第一种方法进行排序。在主菜单中单击Data菜单选项，打开该菜单条；单击Sort Cases选项，打开Sort Cases对话框（如图3.1所示）。从对话框左边窗口选择一变量（如人口密度density），将该变量名送到Sort by窗口中。这就可将所选变量，根据变量值的大小对原文件进行排序。选择了density变量作为Sort by变量，意味着将根据density变量中数据的大小，对“World95”文件中的数据进行排序。在Sort Order方框中，有两种排序选择方式。Ascending和Descending分别表示将根据所选变量按从小到大，或从大到小的顺序对原数据中的各样本进行排序，这里选择后者。可以选择多个变量作为Sort by变量，根据这多个变量数据的大小对原数据文件中的个案进行排序。但排序结果与这些变量输入Sort by窗口的先后顺序有关。最先输入的变量作为第一排序变量，其后输入的变量作为第二、第三,……,第n排序变量。SPSS按照先后顺序，首先根据第一Sort by变量对数据进行排序，然后对这一排序结果中，大小相同的第一Sort by变量所对应的样本，根据第二Sort的变量及排序方式进行排序，后面依次类推。若选择人口密度（density）变量和城市人口比例（urban）变量作为Sort by第一、第二排序变量,前者为降序，后者为升序；还可选择人口数（populatn）作为第三排序变量，排序方式为降序，结果见图3.2。可以看出，spss首先根据density变量进行排序，完成以后，对于density变量值相同的个例，再根据urban变量进行排序，并对density、urban变量值都相同的个例，按populatn从大到小进行排序。如果将第一排序变量与第二排序变量交换，就会产生不同的排序结果，同学们不妨作一些对比。还有一种数据排序的方法是产生一个新变量，给出原数据的序号，而并不打乱原变量的顺序，这种方法往往比前一种方法更为常用有效，这种方法见图3.2中Transform下的Rank Cases对话框（图3.3）。在Variables 对话框中输入主要排序变量，排序的方向由Assign Rank而确定，By后表示按照…变量进行分组排序，Ties是对同值排序时的处理方法，若打开对话框，可取几个序号平均（Mean），最小序号（Low）、最大序号（High），或仅用一个序号（Sequential ranks to unique values）作为同值序号。若进一步打开Rank Types对话框（图3.4）可得秩次编码方法的选择，Rank是新变量值即秩——排序号，新变量名为原变量名前加r；Fractional rank新变量值为秩除以所有合法值的观察个案数之和；Fractional rank as %是在上述基础上再乘以100；Ntile是分段排序，如果后面输入为5，则低于20%的观察量被赋值为1、位于20-40%的观察量被赋值为2……、高于80%的观察量被赋值为5；Sum of case weights新变量值等于各观察量权重之和；Savage score新变量值是依据指数分布所得原始分数，新变量名为原变量名前加s。这里用得较多得是Rank、Ntile、Fractional rank as %等。 3.2 数据的转置数据转置(Transpose)，如矩阵转置，将行列互换，使原来的行变量变成列变量，同时将列变量转变为行变量。有些新学员输入时将调查样本按列输入，使行变成变量，列变成样本。这就需要进行转置，否则无法进行统计及运算。数据转置的具体方法是单击图3.2主菜单下Data→Transpose↙，打开图3.5对话框。在左边窗口中选择并单击那些拟转置变量的变量名，再单击右箭头键，把选定的变量移到Variable窗口中。单击“OK”按钮，会弹出一对话框提示“只选择了所有变量中的一部分，实施转置以后，未被选择的变量在新的文件中将会