- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析方法及软件应用
授课教师:杨小宝
北京交通大学
2015.09
为什么要进行数据的预处理
在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。
数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:
3.1 数据的排序
3.2 变量计算
3.3 数据选取 (重点)
3.4 数据拆分(重点)
3.5 分类汇总 (重点)
3.6 数据分组(重点)
3.7 数据预处理的其它功能(自学):计数、转置、加权、缺失值处理、数据排秩、定义变量集等
第3章 SPSS数据的预处理
数据排序的目的
数据排序的基本操作
3.1 数据的排序
数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;
通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;
通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。
1) 数据排序的目的
SPSS数据排序的基本操作步骤:
(1)选择菜单数据Data?个案排序Sort Cases
(2)将主排序变量从左边的列表中选到排序依据Sort by框中,并在排序顺序Sort Order框中选择按该变量的升序还是降序排序。
(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。
2) 数据排序的基本操作
在左边的源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。
在Sort Order 栏内选择排序方式--升序与降序
数据加工(职工数据).sav
数据排序举例
按基本工资升序和职称降序排序的结果
数据加工(职工数据).sav
变量计算的目的
SPSS算术表达式
SPSS条件表达式
SPSS函数
变量计算的应用举例
3.2 变量计算
SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。
1)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。
2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。
在变量计算过程中涉及到几个概念:SPSS算数表达式、SPSS条件表达式和SPSS函数。
1) 变量计算的目的
计算下表中的职工实际收入
数据加工(职工数据).sav
原有数据中会增加新的一列
数据加工(职工数据).sav
2) SPSS算术表达式
选择出年龄不大于35岁且职称不低于3(讲师)的老师
3) SPSS条件表达式
SPSS函数
SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。
SPSS函数大致可以分成八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数。
4) SPSS函数
1、利用职工基本情况数据,依据职称级别计算实发工资。假设职称1至4职工的工资分别上调5%,3%,2%,1%。
5) 变量计算的应用举例
在计算变量:If个案对话框中依次输入条件表达式,
并在数学表达式框中输入相应公式,分别计算可得
结果
数据加工(职工数据).sav
数据选取的目的
数据选取的方式
数据选取的应用举例
3.3 数据选取—抽样
1) 提高数据分析效率:可以依据一定的抽样方法从总体中抽取少量样本,后面的分析只针对样本进行,这样会大大提高分析的效率。
2) 检验模型的需要:为了验证模型一般可依据一定的抽样方法只选择部分样本参与数据建模,剩余的数据用于模型检验。
1) 数据选取的两个目的
2) 数据选取的方式
1) 选取全部数据(All cases)
2) 按指定条件选取( If condition is satisfied)
3) 随机抽样(Random sample of cases): 近似抽样和精确抽样
4) 选取某一区域内的样本(Based on time or case range)
5) 通过过滤变量选取样本( Use filter variable)
利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:
1) 如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;
2) 如果只希望对其中的70%的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。
3) 数据选取的应用举例
1)只希望分析城镇储户的情况
您可能关注的文档
- 2015激光原理与技术06技术总结.pptx
- 2015急性STAMI指南技术总结.docx
- 高级通信原理数字信号的基带传输(于秀兰)素材.ppt
- 高级通信原理数字信号的基带传输素材.ppt
- 2015教师资格(国考)真题+全(综合素质+教育知识与能力)技术总结.docx
- 2015届“江淮十校”11月联考地理技术总结.docx
- 2015届人教版生物高考二轮复习专题八第1讲基因工程和细胞工程()技术总结.docx
- 高技术战争及武器系统类型素材.ppt
- 2015届人教版生物高考二轮复习专题四第3讲变异、育种和进化()技术总结.docx
- 2015届四川省德阳五中高三上学期第三次月考地理技术总结.docx
最近下载
- 绿色施工实施记录表.docx VIP
- 实验gpio输出控制-led闪烁、流水灯.pdf VIP
- 绿色施工实施记录表.pdf VIP
- 电力信息网络安全防护系统设计方案.pdf VIP
- 肺癌转移脑的护理.pptx
- ASME B16.34 INTERPRETATIONS 国外国际标准规范.pdf VIP
- 项目冬期灌浆专项施工方案.pdf VIP
- 绿色低碳转型.pptx VIP
- 关于环保对企业公司环境有关 的外文文献翻译成品:绿色创新对环境和企业绩效的影响:利益相关者视角(中英文双语对照).docx VIP
- RockwellAutomation罗克韦尔QuickStick 150 用户手册用户手册说明书.pdf
文档评论(0)