网站大量收购独家精品文档,联系QQ:2885784924

数据文件的建立及统计描述PPT.ppt

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据文件的建立及统计描述PPT

便于核查 一定要有标识变量,以便数据的核查校对。 易于转换 录入数据时要考虑不同软件的要求,如一些软件不能识别中文,一些软件的变量名要求不能超过8个字符等,因此,在录入数据时,变量名一般尽可能用英文,不超过8字符,数据尽可能用数值表示,这样数据库被分析软件读入时,就不易丢失数据和出现差错。 利于分析 收集的资料尽可能录成一个数据库文件,而不要分解成多个数据文件,且录入的格式应满足多种统计分析方法的需要。 3 数据的质量控制 使用专门的数据库软件如FoxPro、Access、EpiInfo、EpiData等 (具有完善的数据管理、查询、修改功能 ,录入方便); 设定逻辑核查格式; 实行双人双录入 。 数据核查 逻辑核查; 对原始数据的编号和数据库的数据序号进行核对,看有无缺漏; 利用统计分析软件列出变量的频数表或散点图,观察其频数分布有无异常或有无离群值的出现; 对变量进行描述性统计,观察其样本含量、最大值、最小值是否与原始数据吻合; 对分类变量或等级资料,列出交叉列联表,观察变量间的交互频数是否符合实际情况。 4 缺失值的处理 为保证资料的质量,应尽量减少缺失值,如有缺项,尽可能的补齐。 一般认为,缺失值不能超过数据记录总量的10%。 在数据录入的过程中,注意把“0”和缺失值区分开来。 在一般的数据库中,缺失值一般用“.”表示。 5 生成SPSS数据库 直接录入 变量视窗中定义变量→ 数据视窗中录入 读入其它类型的数据文件 SPSS有很好的兼容性,能将DBASE、FOXBASE、FOXPRO、EXCEL、LOTUS、SYLK、SAS以及纯文本格式的数据文件读入并进行统计分析。 直接单击快捷工具栏中的“ ”按钮,系统就会弹出Open File对话框,单击“文件类型”列表框,选择所需的文件类型,选中所要打开的文件即可。 6 保存数据文件 选择菜单File→save,对于从未保存过的数据库,将会弹出Save Data As对话框,通过下方的保存类型列表框,可选择保存数据文件的类型;若文件曾经存储过,系统会自动按原文件名保存数据。 通过热键“Ctrl S”实现文件的保存。 数据文件的储存格式为“.sav” ;结果浏览窗口的储存格式为“.spo”。 第三节 数据文件的管理 管理数据库包括整理数据、数据库维护及数据变换等内容。 Data菜单 :数据库维护功能 Transform菜单 :数据变换功能 1 .Transform菜单简介 Transform菜单中主要集中了一些对变量进行变换的过程,如对原始数据进行数学运算、为变量赋值、对数据重新编码、计算秩次等 。 Compute选项:为变量赋值,目标变量(Target Variable)可以是新变量,也可以是已有的变量。操作的数据集可以是所有记录,也可以设置逻辑条件,只对满足条件的记录赋值,其余记录的相应变量或保持原状(目标变量为已有变量时)或被赋为缺失值(目标变量为新变量时)。 Random Number Seed选项:用于设定伪随机函数的随机种子。 Count选项:用于标示某个值或某些值在某个变量的取值中是否出现。 Recode选项:从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成新变量,实际效果与Compute…选项类似。 Categorize Variables选项:将连续性变量自动按照要求分成等间距的n组。 Rank Cases选项:根据某个选定变量V的数值大小排序(秩次),再将秩次结果储存至一个新变量rV(即原变量名前加r表示Rank秩次的意思)中。 Automatic Record选项:按照原变量值的大小生成新变量,变量值为按原值的大小排列的顺次,功能与Rank Cases相似(等同于相同数值给予最小秩次的情况)。 Create Time Series选项:用于自动生成时间序列变量。 Replace Missing Value选项:用于时间序列模型数据的预处理。 ⑴Compute过程 例 以表9.2.2中的数据为例(数据库见“例9.2.1 某地2005年65岁以上老年人健康体检纪录.sav”),如果我们在数据管理时,需要计算体质指数BMI(BMI=体重/身高2),我们就可以使用Compute过程在原数据库中生成新变量并命名为“bmi”。 选择菜单Transform→Compute 例 以表9.2.2中的数据为例(数据库见“例9.2.1 某地2005年65岁以上老年人健康体检纪录.sav”),我们需要将年龄分段,规定年龄≤70岁为1,>70岁为2,并在原数据库中生成新变量“age1”。 Target Variable里键入“age1”。右上方的Numeric Expression框内输入“

文档评论(0)

erfg4eg + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档