- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文件级别的数据管理
第4章 文件级别的数据管理 4.1 常用过程 一、排序的两种方法: (1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。 (2)对于多变量排序,则需要使用Sort Cases过程来进行。 二、多变量排序需要注意的三点: (1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。 (2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。 (3)排序以后,原来记录数据的排列次序将被打乱。 2 拆分文件 Split File 分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。 例:CCSS按月份进行拆分,计算S3的统计描述。 3 选择个案 Select Cases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。 筛选CCSS中的月份为200912 4 加权个案 Weight Cases:设定某变量为频数变量。 以频数格式录入的数据 非等概率抽样 5 分类汇总 所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。 4.2 数据文件的重组与转置 一、数据的长型与宽型格式: 长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。 三、数据转置 Transpose:用于对数进行行列转置,数据文件的转置就是将数据编辑窗口中数据的行列互换,即将记录转为变量,将变量转为记录后,重新显示在数据编辑窗口中。 4.3 多个数据文件的合并 纵向连接:几个数据集中的数据相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。 横向连接:指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。 一、数据文件的纵向连接 纵向合并实质就是将两个数据文件的变量列,按照各个变量名的含义,一一对应的进行首尾相接。 纵向合并必须遵循两个条件: 第一,两个合并的spss数据文件,其内容合并是有实际意义的。 第二,为方便spss数据文件的合并,在不同的数据文件中,最好起相同的名字,变量类型和变量长度也要尽量相同。 二、数据文件的横向合并 横向合并的实质是将两个数据文件的记录,按照记录对应,一一进行左右对接。 横向合并遵循三个条件: 第一,如果不是按照记录号对应的规律进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向合并的依据,成为关键变量。 第二,如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升序排列。 第三,为方便SPSS文件的合并,在不同的数据文件中,数据含义不相同的列,变量名不应取相同的名称。 4.4 与数据字典有关的功能 1 数据字典的定义与应用 在大型的数据分析项目中,数据管理是非常重要的一个环节,为了保证工作质量,数据处理人员往往会事先定义好一个非常详细的数据格式,包括变量格式、变量标签、标签值、缺失值定义等,这被称为数据字典。 一、变量属性定义导向:Define Variable Properties 二、复制数据文件属性导向 Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。 4.5 与数据准备有关的功能 1 数据验证模块 2 标识重复个案 3 标识异常个案 1. 数据验证模块 单变量规则 交叉变量规则 定义验证规则 进行数据验证 2. 标识重复个案 运行结束后,结果窗口会给出本次操作的信息汇总: Unpaired variable:不匹配变量栏。指变量名相同而变量定义不同的变量,或变量名不同的变量。 Variable in new working data:新工作数据变量栏。 Indicate case source as variable:指示记录来源的变量选项/ Excluded Variables:拒绝变量名。外部文件与当前数据的同变量,拒绝加到新工作区中。 New Working Data:新工作数据变量栏。 Match Case on Key Variable in sort:排序文件中按关键变量匹配记录选项。 Both files provide case:由外部文件和当前数据量两者提供记录。 External file is keyed table:外部文件为关键表,以当前数据为基准,外部文件匹配当前数据的关键变量值,如匹配成功,外部文件的新变量值加入到当前数据的新变量中,匹配不成功则不加入。 Working Data File is keyed tab
您可能关注的文档
最近下载
- (高清版)-B-T 4798.2-2021 环境条件分类 环境参数组分类及其严酷程度分级 第2部分:运输和装卸.pdf VIP
- 《插花与花艺设计》课件——项目四 礼仪插花.pptx VIP
- 《通信数据分析与实战》课件——第六章 Kafka 分布式发布订阅消息系统.pptx VIP
- GA∕T 1424-2017 法庭科学合成纤维物证检验 红外光谱法.pdf
- 大数据平台与编程第9章 分布式消息队列Kafka.pptx VIP
- 《学前儿童艺术教育》课程标准.docx VIP
- 卫生专业技术资格考试临床医学检验技术(中级379)基础知识强化训练精练试题解析.docx VIP
- 2025高考英语全国II卷试题分析及备考策略指导课件.pdf VIP
- 销售人员必备的素质.ppt
- 2025年机动车检测站授权签字人试题题库及参考答案(通用版).pptx
文档评论(0)