调查数据的分析与统计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
调查数据的分析与统计

调查数据的处理与分析 ?一、数据处理 ???? ?1.数据录入。数据录入是将在问卷编码部分所标记的符码及文字输入到计算机中,形成可供统计软件处理的文件格式的过程。因此,保证这一过程的完整性、准确性及标准化是其最基本的原则。遗漏问卷信息、录入错误、变量赋值不统一等问题是问卷录入中比较容易犯的错误,它在很大程度上影响了后续研究的科学性。 ???? 在数据录入前,首先要检查回收的问卷,看问卷、访问记录与各项表格是否有缺漏。然后创建编码手册,以便为录入工作提供一个统一的标准,也为此后的数据核查及研究工作提供依据。此外,我们要对问卷进行审核和编码,尤其要在审核中检查跳答或其它特殊编码的一致性。 ???? 实际录入时,可以通过试录,检查编码手册及录入程序等的周全无误;并编写录入说明,建立标准工作流程;录入前要对录入人员进行培训,以统一操作规范;??录入中要设计工作记录表,使录入工作责任到人,避免重复作业和掌握进度。目前许多大型社会调查还采用双录核查,即对一份问卷由不同的录入员录入两次,比对两次录入数据并核对问卷,找出错误原因。双录入的方法基本上可以消除了录入环节的手工误差。 ???? 2.数据清理与校验。一份调查数据的产生,经过较多环节,各环节的错误都会反映在数据中。所以当录入完成后,必须对数据进行核查,既要发现录入中存在的问题,检查数据与问卷记录的信息是否一致,也要检查其他原因造成的错误。数据核查包括:检查录入的原始数据文件的记录数与问卷份数是否一致;检查原始数据文件变量顺序与问卷题目顺序是否一致;核查样本编号;不合理值核查;逻辑一致性核查。其中,重点是检查样本编号、非法值、极值和变量间的逻辑。 ???? 3.数据归档。一项调查结束后,在研究人员进行分析数据以前,还需要对调查的数据建立相应的“档案”资料,同数据一起交给研究人员。这样,随着时间的推移,其他研究人员可以通过原始数据及其数据档案了解相应数据的背景信息,这项工作也称为“数据归档”。另外,随着研究的展开,可以将与该项调查有关的研究报告、发表论文等相关信息也逐渐补充到数据档案中,为进一步研究提供翔实的信息。 ???? 4.抽样数据的加权。在抽样调查中,由于设计和调查实施的原因,每一个被选对象的入选概率可能和实际情况不相符。比如,许多涵盖城乡的全国调查为了节约调查费用,减轻调查难度,会人为地降低农村人口的抽样比例。又如,由于调查周期和方式的限制,样本的性别、年龄等构成有可能偏离人口统计的指标。因此在数据录入完成后,我们需要根据抽样方案的设计,参照权威的人口统计指标,对抽样调查数据进行加权,经过加权的数据能更准确地推断总体状况。 ???? 二、数据分析 ???? 1.单变量描述统计。在对数据进行分析时,首先关心的是通过各个变量的次数分布、集中趋势、离散趋势所描绘出的研究对象的基本特征。 ???? 在描述性统计中,最常用的统计方法就是频数,即通过对数据进行统计分组和汇总所得到的各组次数分布情况,而将其除以样本总数,就是我们常用的百分数。虽然频数描述了研究对象的整体特征,但它是通过对若干组的统计来实现的,如果需要用一个数值来概括变量的特征,那么集中趋势的统计就是最合适的。所谓集中趋势,就是一组数据向一个代表值集中的情况。 ???? 仅有集中趋势的统计还不能完全准确地描述各个变量,这时因为它没有考虑到变量的离散趋势。所谓离散趋势,是指一组数据之间的离散程度。其最常用的统计量是标准差,它是一组数据中各数值与算术平均数相减之差的平方和的算术平均数的平方根。 ???? 在单描述性统计中,集中趋势的统计量包括众数、中位数和平均数,离散趋势则包括异众比、全距、四分位数、方差和标准差。前者体现了数据的相似性、同质性,后者体现了数据的差异性、异质性。 ???? 2.双变量和多变量关系分析。在问卷调查中,除了对单一变量进行描述和分析外,还要探讨变量之间的关系。这就涉及多变量分析。社会现象的复杂性只有通过在抽样调查中,以变量间关系的分析,才能得到较好的描述和解释。 ???? 最简略的变量间关系便是双变量关系。我们可以通过交互列联、分组平均数、等级相关、积矩相关、一元回归等双变量统计方式考察两个变量之间是否存在关联。双变量统计可以初步地揭示社会现象间的影响作用。比如,通过做在业人口中性别变量与月工资收入变量的关系统计,发现男性在业人口的月收入平均为2800元,而女性只有2200元,这提示我们不同性别的收入是有差异的,性别是影响收入差距的因素之一。 ???? 然而,社会现象的影响作用往往不是单一因素决定的,如果我们考虑到更多的影响因素,就应该引入多变量关系统计的方法,即同时考察多个自变量对因变量的影响作用。比如,我们将在业人口的月收入看作是因变量,将性别、教育程度、行业、职业、年龄等视为多个影响因素,采用多元回

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档