文件级别的数据管理.ppt

下载文档 降价啦

21
0
约3.73千字
约 53页
2017-12-15 发布于湖北
举报
版权申诉
保障服务

文件级别的数据管理.ppt

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文件级别的数据管理

第4章文件级别的数据管理 4.1 常用过程一、排序的两种方法：（1）在数据表格的变量名处单击右键，弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。（2）对于多变量排序，则需要使用Sort Cases过程来进行。二、多变量排序需要注意的三点：（1）在多重排序中，制定排序变量名是很关键的，先指定的变量在排序时必然优先于后制订的变量。（2）可以指定按某变量值升序排序的同时按另一变量值降序排序，或相反。（3）排序以后，原来记录数据的排列次序将被打乱。 2 拆分文件 Split File 分割文件的功能是把当前工作分割成两个或两个以上的组，随后的分析将对每个组进行。例：CCSS按月份进行拆分，计算S3的统计描述。 3 选择个案 Select Cases：当用户不需要分析全部的数据，而是按要求分析其中的一部分，使用该选择。筛选CCSS中的月份为200912 4 加权个案 Weight Cases：设定某变量为频数变量。以频数格式录入的数据非等概率抽样 5 分类汇总所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。 4.2 数据文件的重组与转置一、数据的长型与宽型格式：长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。三、数据转置 Transpose：用于对数进行行列转置，数据文件的转置就是将数据编辑窗口中数据的行列互换，即将记录转为变量，将变量转为记录后，重新显示在数据编辑窗口中。 4.3 多个数据文件的合并纵向连接：几个数据集中的数据相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。横向连接：指的是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列，按照各个变量名的含义，一一对应的进行首尾相接。纵向合并必须遵循两个条件：第一，两个合并的spss数据文件，其内容合并是有实际意义的。第二，为方便spss数据文件的合并，在不同的数据文件中，最好起相同的名字，变量类型和变量长度也要尽量相同。二、数据文件的横向合并横向合并的实质是将两个数据文件的记录，按照记录对应，一一进行左右对接。横向合并遵循三个条件：第一，如果不是按照记录号对应的规律进行合并，则两个数据文件必须至少有一个变量名相同的公共变量，这个变量是两个数据文件横向合并的依据，成为关键变量。第二，如果是使用关键变量进行合并的对应，则两个数据文件都必须事先按关键变量进行升序排列。第三，为方便SPSS文件的合并，在不同的数据文件中，数据含义不相同的列，变量名不应取相同的名称。 4.4 与数据字典有关的功能 1 数据字典的定义与应用在大型的数据分析项目中，数据管理是非常重要的一个环节，为了保证工作质量，数据处理人员往往会事先定义好一个非常详细的数据格式，包括变量格式、变量标签、标签值、缺失值定义等，这被称为数据字典。一、变量属性定义导向：Define Variable Properties 二、复制数据文件属性导向 Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。 4.5 与数据准备有关的功能 1 数据验证模块 2 标识重复个案 3 标识异常个案 1. 数据验证模块单变量规则交叉变量规则定义验证规则进行数据验证 2. 标识重复个案运行结束后，结果窗口会给出本次操作的信息汇总： Unpaired variable：不匹配变量栏。指变量名相同而变量定义不同的变量，或变量名不同的变量。 Variable in new working data：新工作数据变量栏。 Indicate case source as variable：指示记录来源的变量选项/ Excluded Variables：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作区中。 New Working Data：新工作数据变量栏。 Match Case on Key Variable in sort：排序文件中按关键变量匹配记录选项。 Both files provide case：由外部文件和当前数据量两者提供记录。 External file is keyed table：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。 Working Data File is keyed tab