数据文件的建立及统计描述PPT.ppt

下载文档

9
0
约6.89千字
约 86页
2018-10-01 发布于江苏
举报
版权申诉
保障服务

数据文件的建立及统计描述PPT.ppt

1、本文档共86页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据文件的建立及统计描述PPT

便于核查一定要有标识变量，以便数据的核查校对。易于转换录入数据时要考虑不同软件的要求，如一些软件不能识别中文，一些软件的变量名要求不能超过8个字符等，因此，在录入数据时，变量名一般尽可能用英文，不超过8字符，数据尽可能用数值表示，这样数据库被分析软件读入时，就不易丢失数据和出现差错。利于分析收集的资料尽可能录成一个数据库文件，而不要分解成多个数据文件，且录入的格式应满足多种统计分析方法的需要。 3 数据的质量控制使用专门的数据库软件如FoxPro、Access、EpiInfo、EpiData等（具有完善的数据管理、查询、修改功能，录入方便）；设定逻辑核查格式；实行双人双录入。数据核查逻辑核查；对原始数据的编号和数据库的数据序号进行核对，看有无缺漏；利用统计分析软件列出变量的频数表或散点图，观察其频数分布有无异常或有无离群值的出现；对变量进行描述性统计，观察其样本含量、最大值、最小值是否与原始数据吻合；对分类变量或等级资料，列出交叉列联表，观察变量间的交互频数是否符合实际情况。 4 缺失值的处理为保证资料的质量，应尽量减少缺失值，如有缺项，尽可能的补齐。一般认为，缺失值不能超过数据记录总量的10%。在数据录入的过程中，注意把“0”和缺失值区分开来。在一般的数据库中，缺失值一般用“.”表示。 5 生成SPSS数据库直接录入变量视窗中定义变量→ 数据视窗中录入读入其它类型的数据文件 SPSS有很好的兼容性，能将DBASE、FOXBASE、FOXPRO、EXCEL、LOTUS、SYLK、SAS以及纯文本格式的数据文件读入并进行统计分析。直接单击快捷工具栏中的“ ”按钮，系统就会弹出Open File对话框，单击“文件类型”列表框，选择所需的文件类型，选中所要打开的文件即可。 6 保存数据文件选择菜单File→save，对于从未保存过的数据库，将会弹出Save Data As对话框，通过下方的保存类型列表框，可选择保存数据文件的类型；若文件曾经存储过，系统会自动按原文件名保存数据。通过热键“Ctrl S”实现文件的保存。数据文件的储存格式为“.sav” ；结果浏览窗口的储存格式为“.spo”。第三节数据文件的管理管理数据库包括整理数据、数据库维护及数据变换等内容。 Data菜单：数据库维护功能 Transform菜单：数据变换功能 1 .Transform菜单简介 Transform菜单中主要集中了一些对变量进行变换的过程，如对原始数据进行数学运算、为变量赋值、对数据重新编码、计算秩次等。 Compute选项：为变量赋值，目标变量（Target Variable）可以是新变量，也可以是已有的变量。操作的数据集可以是所有记录，也可以设置逻辑条件，只对满足条件的记录赋值，其余记录的相应变量或保持原状（目标变量为已有变量时）或被赋为缺失值（目标变量为新变量时）。 Random Number Seed选项:用于设定伪随机函数的随机种子。 Count选项：用于标示某个值或某些值在某个变量的取值中是否出现。 Recode选项：从原变量值按照某种一一对应的关系生成新变量值，可以将新值赋给原变量，也可以生成新变量，实际效果与Compute…选项类似。 Categorize Variables选项：将连续性变量自动按照要求分成等间距的n组。 Rank Cases选项：根据某个选定变量V的数值大小排序（秩次），再将秩次结果储存至一个新变量rV（即原变量名前加r表示Rank秩次的意思）中。 Automatic Record选项：按照原变量值的大小生成新变量，变量值为按原值的大小排列的顺次，功能与Rank Cases相似（等同于相同数值给予最小秩次的情况）。 Create Time Series选项：用于自动生成时间序列变量。 Replace Missing Value选项：用于时间序列模型数据的预处理。 ⑴Compute过程例以表9.2.2中的数据为例（数据库见“例9.2.1 某地2005年65岁以上老年人健康体检纪录.sav”），如果我们在数据管理时，需要计算体质指数BMI（BMI=体重/身高2），我们就可以使用Compute过程在原数据库中生成新变量并命名为“bmi”。选择菜单Transform→Compute 例以表9.2.2中的数据为例（数据库见“例9.2.1 某地2005年65岁以上老年人健康体检纪录.sav”），我们需要将年龄分段，规定年龄≤70岁为1，＞70岁为2，并在原数据库中生成新变量“age1”。 Target Variable里键入“age1”。右上方的Numeric Expression框内输入“