实习3数据管理.pptVIP

  • 20
  • 0
  • 约 29页
  • 2016-03-12 发布于江苏
  • 举报
实习3数据管理.ppt

实习3 数据管理 数据管理:对数据文件的结构进行重新调整或转换,以便适合于相应的统计方法。 数据管理包括的内容:计算新变量、变量取值重编码、变量排序、文件合并、文件拆分等。 数据管理有两个级别:变量级别(Transform菜单)和文件级别(Data菜单)。 学习目标(1) 利用“Compute”计算新变量 利用“Recode”对变量值进行分组 利用“Visual Bander”对连续型变量进行可视化分组 利用“Automatic Record”将字符变量转化成数值变量 利用“Rank Cases”计算秩次 利用“Sort Cases”进行排序 利用“Split File”进行记录拆分 利用“Select Cases”进行记录筛选 学习目标(2) 利用“Weight Cases”进行记录加权 利用“Aggregate”进行分类汇总 理解什么是数据字典 利用“Define Variable Properties”定义变量属性 利用“Copy Data Properties”复制变量属性 利用“Identifying Duplicate Cases”查找重复记录 利用“Restructure”对数据文件重新排列 利用“Merge Files”对两个数据文件进行合并 主要内容 3.1 变量级别的数据管理 3.2 文件级别的数据管理(一) 3.3 文件级别的数据管理(二) 3.1 变量级别的数据管理 功能特点 主要通过Transform菜单对变量进行操作,包括:对变量进行四则运算生成新变量、记录的排秩、对数据重新编码等。这些都是对数据进行统计分析的预处理。 功能特点(续1) 计算新变量(Compute):最常用和重要的过程。 变量转换:包括Recode(重新编码)、Visual Bander(可视化分段)、Count(计数)、Rank Cases(观测量排秩)、Automatic Recode(自动重新编码)这五个过程,它们实际上都可以被看成是compute过程在某一方面功能的强化和打包。 计算新变量:Compute 用于计算新变量,或者给老变量赋值 三个概念:SPSS算术表达式、SPSS函数、SPSS条件表达式 实例:transforme.sav是某年级学生数学、英语、语文三门成绩的数据文件,现在统计英语成绩在60分以上的学生的语文和数学的平均成绩。 对变量值进行分组合并:Recode Recode过程: Recode into same variable Recode into different variable 对连续型变量进行分组(注意组边界取值) 分类变量类别的合并 连续变量的可视化分段:Visual Bander 功能:相比Recode,分组更有规律 三种分组方式: 等距分组 等比例(等样本量)分组 按标准差范围分组(可用来筛选异常值) Transform菜单中的其他功能 将字符变量转换为数值变量 Automatic Record 计算变量秩次(排序,给出序号) Rank Cases 计数(如计算每位学生的优秀科目数) Count 3.2 文件级别的数据管理(一) 功能特点 对数据进行加工整理,例如根据统计分析的要求对数据进行分组、合并、加权、筛选等操作 简单命令:不学也会 常用简单过程:好学,而且非常重要 专用过程:难学,用途比较特殊 记录排序:Sort Cases 将记录按ID变量排序,有利于查找、修改 将某个变量按升序或降序排列,可以方便用户了解数据,进行数据分析 缺失值在排序中会排在最小值的前面,可以通过排序的方法很快发现哪些记录为缺失 记录拆分:Split File 将数据文件分组进行处理 Analyze all cases:不拆分文件 Compare groups:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较 Organize output by groups:按所选变量拆分文件,各组分析结果单独放置 记录筛选:Select Cases 按要求筛选出数据集的一部分 可以使用组合条件进行筛选 可以直接在数据集中抽样 记录加权:Weight Cases 分类资料数据录入格式 枚举格式 频数格式 只有先进行加权设定,统计软件才能正确识别和处理数据 数据汇总(分类汇总):Aggregate 所谓分类汇总是指按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量。 例如,不同学历员工的收入情况,不同性别的学生的平均分情况 3.3 文件级别的数据管理(二) 数据字典的定义与应用 什么是数据字典 在大型的数据分析项目中,为了保证工作质量,数据处理人员往往会事先定义好一个非常详细的数据格式,包括变量格式、变量标签、值标签、缺失值定义等等,这被称为数据字典。 对于正

文档评论(0)

1亿VIP精品文档

相关文档