抽样调查数据清理与校验.pdfVIP

下载本文档

8
0
约2.09万字
约 17页
2017-09-01 发布于安徽
举报
版权申诉

抽样调查数据清理与校验.pdf

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

抽样调查数据的清理与校验王卫东、冯仕政、陆益龙、刘精明第一节研究问题与意义 Lessler 和 Kalsbeek 曾根据调查的不同阶段对误差来源进行过分类：在抽样框收集、抽样实施过程中会存在抽样误差，在调查实施中会出现无回答误差和计量误差。事实上，任何一次严格的随机抽样调查数据，一般都会存在两个层面的误差：（1）抽样过程中的误差；（2 ）存在于被访者那里的真实信息与研究人员在统计分析过程中实际可得信息之间的误差。这里，我们将前一种误差称为“抽样误差”，将后一种误差称为“测量误差”。本章所讨论的“数据清理与校验”问题，基本上针对“测量误差”而言。我们认为，测量误差是指被访者的真实信息通过一系列的询问-回答、调查员记述、编码、机读格式存储等转换过程后所产生的信息变异。大多数信息变异都可能是一种非随机误差，它涉及的范围大体包括如下几个方面：（1）录入误差，即将问卷记录信息转换为机读格式存储信息过程所产生的录入错误；（2 ）无回答误差，即在问卷的某个或某些问题上，由于被访拒答，或者由于调查员询问、记录出现遗漏等原因所产生的信息缺失；（3 ）回答偏差，产生这类偏差的原因可能是多方面的：一是调查员询问未能准确表达测量目标，致使被访者错误理解问题而产生回答信息与测量要求的不一致，或者相反，被访对询问问题的理解有偏误，因而做出与测量要求不一致的回答；二是题器设计模糊，致使不同被访或调查员对问题产生歧义性理解，从而使收集的信息无法达到测量效果；三是问卷访谈过程受到第三方因素的干扰（比如他人在场、突发事件、访谈被中断等），致使回答产生偏差；四是被访有意报告虚假信息。（4 ）记录和编码的偏差，即在记录和编码被访者回答信息时，由于调查员的失误而产生的信息偏差。上述测量误差大多是所谓的非随机误差。抽样过程的随机误差一般可以通过抽样技术加以推断和控制，或者可以通过一定的估计手段加以有效估计（比如抽样误差），而非随机误差的控制却是一项复杂的工作，对它的估计也经常令研究者感到十分头痛，有时候它可能会一直潜藏在研究者的分析结果之中，很难为研究者所发现。在大型入户问卷调查的实施过程中，研究者往往由于无法全面掌握抽样以及问卷访谈的具体细节，从而对问卷数据到底可能发生了什么样的信息变异无从知晓。隐藏在数据背后的那些问题，缠绕在可能准确的真实信息之中，有时候我们可能面对的是一堆“斩不断、理还乱” 的数据符号，对耗费了巨大的人力、物力收集到手的数据信息往往只能是将信将疑地去使用和分析，这反过来也影响了研究者对社会现实作出判断的信心。正因为抽样调查数据可能存在的诸多数据谬误与偏差，使得我们有理由认为，根据抽样调查数据来分析和研究社会，以期反映真实的社会现象及其背后的社会生活的逻辑，其本身就是一项极其危险的事业。然而，在这些非随机误差面前，难道我们真的就束手无策吗？其实，只要我们对不同类型的非随机误差稍加分析就不难看出，有些非随机误差也是可以完全加以控制的（比如录入误差）；有些误差可以根据一些较为严密的逻辑推理加以检验判断，并通过二次访谈的方式加以修正；此外，某些信息记录偏误的并非完全的杂乱和偶然，而是存在一定的系统性，比如一些特定被访、调查员的特征总是与某类特定的信息记录偏误相关联，某个特定的记录误差集中出现在某些特定地方区域中等等，归纳和总结这样的系统性的偏误模式，也是我们在分析处理过程中客观、准确地把握问题数据的有效方式。最大限度地减少那些“不可知”的误差对统计分析的影响，是每个利用数据来描述和分析社会现象与社会过程的研究人员都必须认真对待的问题。因此，从这个角度来讲，任何一种减少数据误差的工作就具有了极为重要的意义。为了尽量了解和减少研究数据中的信息变异，目前大多数严格的实证研究都会对最后录入数据进行数据清理，即通过对特定变量的逻辑检验或数据模式分析，我们可以推断调查员在信息记录过程中可能产生的信息偏误，推断被访者所报告的信息之真伪程度，从而修正数据中的某些记录误差；同样，通过逻辑检验，我们还可以由此来检验测量工具的有效性；甚或在遇到与常规逻辑不相符合的真实现实时，还可以由此加深和扩展我们对社会现实的认