《实习3数据管理.pptVIP

下载本文档

3
0
约6.08千字
约 29页
2016-12-28 发布于北京
举报
版权申诉

《实习3数据管理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实习3 数据管理数据管理：对数据文件的结构进行重新调整或转换，以便适合于相应的统计方法。数据管理包括的内容：计算新变量、变量取值重编码、变量排序、文件合并、文件拆分等。数据管理有两个级别：变量级别（Transform菜单）和文件级别（Data菜单）。学习目标（1）利用“Compute”计算新变量利用“Recode”对变量值进行分组利用“Visual Bander”对连续型变量进行可视化分组利用“Automatic Record”将字符变量转化成数值变量利用“Rank Cases”计算秩次利用“Sort Cases”进行排序利用“Split File”进行记录拆分利用“Select Cases”进行记录筛选学习目标（2）利用“Weight Cases”进行记录加权利用“Aggregate”进行分类汇总理解什么是数据字典利用“Define Variable Properties”定义变量属性利用“Copy Data Properties”复制变量属性利用“Identifying Duplicate Cases”查找重复记录利用“Restructure”对数据文件重新排列利用“Merge Files”对两个数据文件进行合并主要内容 3.1 变量级别的数据管理 3.2 文件级别的数据管理（一） 3.3 文件级别的数据管理（二） 3.1 变量级别的数据管理功能特点主要通过Transform菜单对变量进行操作，包括：对变量进行四则运算生成新变量、记录的排秩、对数据重新编码等。这些都是对数据进行统计分析的预处理。功能特点（续1）计算新变量（Compute）：最常用和重要的过程。变量转换：包括Recode（重新编码）、Visual Bander（可视化分段）、Count（计数）、Rank Cases（观测量排秩）、Automatic Recode（自动重新编码）这五个过程，它们实际上都可以被看成是compute过程在某一方面功能的强化和打包。计算新变量：Compute 用于计算新变量，或者给老变量赋值三个概念：SPSS算术表达式、SPSS函数、SPSS条件表达式实例：transforme.sav是某年级学生数学、英语、语文三门成绩的数据文件，现在统计英语成绩在60分以上的学生的语文和数学的平均成绩。对变量值进行分组合并：Recode Recode过程： Recode into same variable Recode into different variable 对连续型变量进行分组（注意组边界取值）分类变量类别的合并连续变量的可视化分段：Visual Bander 功能：相比Recode，分组更有规律三种分组方式：等距分组等比例（等样本量）分组按标准差范围分组（可用来筛选异常值） Transform菜单中的其他功能将字符变量转换为数值变量 Automatic Record 计算变量秩次（排序，给出序号） Rank Cases 计数（如计算每位学生的优秀科目数） Count 3.2 文件级别的数据管理（一）功能特点对数据进行加工整理，例如根据统计分析的要求对数据进行分组、合并、加权、筛选等操作简单命令：不学也会常用简单过程：好学，而且非常重要专用过程：难学，用途比较特殊记录排序：Sort Cases 将记录按ID变量排序，有利于查找、修改将某个变量按升序或降序排列，可以方便用户了解数据，进行数据分析缺失值在排序中会排在最小值的前面，可以通过排序的方法很快发现哪些记录为缺失记录拆分：Split File 将数据文件分组进行处理 Analyze all cases：不拆分文件 Compare groups：按所选变量拆分文件，各组分析结果紧挨在一起便于相互比较 Organize output by groups：按所选变量拆分文件，各组分析结果单独放置记录筛选：Select Cases 按要求筛选出数据集的一部分可以使用组合条件进行筛选可以直接在数据集中抽样记录加权：Weight Cases 分类资料数据录入格式枚举格式频数格式只有先进行加权设定，统计软件才能正确识别和处理数据数据汇总（分类汇总）：Aggregate 所谓分类汇总是指按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量。例如，不同学历员工的收入情况，不同性别的学生的平均分情况 3.3 文件级别的数据管理（二）数据字典的定义与应用什么是数据字典在大型的数据分析项目中，为了保证工作质量，数据处理人员往往会事先定义好一个非常详细的数据格式，包括变量格式、变量标签、值标签、缺失值定义等等，这被称为数据字典。对于正