第3章SPSS数据的预处理-薛微.ppt

例如:职工基本情况数据,可按基本工资对职工进行分组,见下表: 按工资分组(元) 频数(人) 频率(%) 850以下 5 31.3 850-900 5 31.3 900-950 1 6.3 950-1000 2 12.5 1000以上 3 18.6 3.2.6 变量计算的应用举例 1、利用职工基本情况数据,依据职称级别计算实发工资。假设职称1至4职工的工资分别上调5%,3%,2%,1%。 2、利用满意度数据将反向问题X2数据进行正向转换。 3.3 数据选取 数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。 3.3.1 数据选取的基本方式 (1)选取全部数据(All cases) (2)按指定条件选取( If condition is satisfied ) SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。 (3)随机抽样( Random sample of cases ),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式: 第一,近似抽样(Approximately) 近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。 注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。 第二,精确抽样(Exactly) 精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。 (4)选取某一区域内的样本( Based on time or case range ),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。 (5)通过过滤变量选取样本( Use filter variable ),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。 说明: (1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。 (2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。 3.3.2 数据选取的基本操作 (1)选择菜单Data—Select cases (2)根据分析需要选择数据选取方法 (3)Unselected cases are指定对未选中个案的处理方式 Filtered表示在未被选中的个案号码上打一个“/”标记; Deleted表示将未被选中的个案从数据编辑窗口中删除。 Select Cases对话框 3.3.4 数据选取的应用举例 利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样: (1)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样; (2)如果只希望对其中的70%的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。 3.4 计数 3.4.1 计数目的 SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。 SPSS实现计数的关键步骤是: 指定哪些变量参与计数,计数的结果存入哪个新变量中 指定计数区间(尤为关键) 3.4.2 计数区间 SPSS中的计数区间可以有以下几种描述形式: 单个变量值(Value) 系统缺失值(System-missing) 系统缺失值或用户缺失值( System or user-missing) 给定最大值和最小值的区间(n through m) 小于等于

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档