2016CFPS 中国家庭追 踪调查数据清理报告.pdfVIP

  • 1060
  • 0
  • 约1.62万字
  • 约 12页
  • 2019-12-10 发布于四川
  • 举报

2016CFPS 中国家庭追 踪调查数据清理报告.pdf

China Family Panel Studies CFPS 中国家庭追踪调查 技术报告系列:CFPS-35 系列编辑:谢宇 责任编辑:赵启琛 中国家庭追踪调查 2016 年数据库介绍及数据清理报告 吴琼 戴利红 甄祺 张婧申 谷丽萍 张聪 赵方圆 2018.10.23 一. 背景介绍 CFPS2016 为中国家庭追踪调查的第四轮全国调查,集中的面访时间为2016 年 7 月至 11 月,加上后期的外出家庭追访以及电话调查,调查执行期持续到2017 年5 月。2017 年9 月CFPS 项目组发布了成人、少儿、经济库的测试版本,2018 年4 月发布了家庭关系库, 2018 年7 月发布了成人、少儿、经济库的正式版本以及个人跨年库。这份技术报告针对2018 年4 月及之后发布的各库清理过程进行梳理,并向用户介绍使用这些数据库的注意事项。 CFPS2016 最终完成家庭层面有效样本 14763 户,个人有效样本45319 份。以2014 年 调查完访样本为基础,CFPS2016 在家庭层面的追踪率是89%,个人层面追踪率是82%。如 果以 2010 年基线调查在家庭关系库中界定的 57155 名家庭成员为基础,经过六年之后, CFPS2016 成功追踪到该基线样本的69% 。在所有CFPS2016 的样本中,约两成左右由电话 访问完成。 从问卷内容上看,此轮问卷基本保持了与CFPS2014 相同的模块,但将以前个人问卷中 分属成人和少儿问卷但内容相同的一些模块改成了共用模块。这步变更对数据的使用将产生 两方面的影响:在CFPS2016 内部,成人和少儿模块中相同的问题会有同样的变量名,为同 一轮数据的跨库使用增加了便捷性;但在跨年间,CFPS2016 的这个变动有可能造成部分变 量在不同轮次间变量名发生改动,需要用户比对问卷进行确认。CFPS2016 还新增了部分问 卷采集内容,也相应地删除了部分题目,具体的变化内容可以从CFPS 项目网站上的《历年 问卷内容变动表》中获取。CFPS2016 在问卷结构上的另一个重大调整是大幅度扩充了电访 调查的内容,除了认知测试只在面访中提问之外,其他所有问题在面访和电访问卷中都是一 致的。 二. 2016 年问卷数据清理步骤 1. 中断样本的确认 在访问已经开始后,由于各种原因(如受访者中途退出,访问系统问题以及其它原因) 而需要中止访问的样本都属于调查中的中断样本。中断样本中的大部分在后期成功补充完成 并收录在数据库中,但有少量处于未完成状态。我们针对这种未完成状态的中断样本,检查 其问卷进展的完整度,如果超过80%的完成率,则将其纳入发布数据集中。根据这个筛选标 准,CFPS2016 共纳入78 个中断样本观测,其中家庭成员库35 个,家庭经济库8 个,成人 库28 个,少儿库7 个。中断样本以interrupt 变量来指征,中断样本的interrupt 变量值取1。 1 2. 各库样本编码清理 CFPS2016 的各库样本编码清理工作包含以下环节。1)清理各库内部样本的重复情况。 各库内部 id 的重复主要来自两个方面的原因:一是由于在执行过程中启用了备用问卷,这 些重复样本的确定绝大部分可以通过结果代码是否指征该条样本正常完成来进行判定;二是 同一个体被多个关联家庭认为是自家成员,这些重复样本的确定需要结合个人的在家状态和 问卷完访时间来综合判断。2 )清理跨库间样本编码的逻辑关系,确保所有数据集的观测以 家庭成员库为出发点,避免个人库的样本无特定家庭归属的情况。3 )以家庭关系库为基础, 确认和清理所有关联家户中相同名字但不同pid 的个体。关联家庭中同名不同pid 出现的主 要原因是往期或是当期调查中进入 CFPS 的个体在当期关联家庭中以新人的身份再次进入 CFPS,我们对此类样本会综合考虑完访形式、完访时间、在家状态、数据完整性等因素,保 留合适的问卷数据,并将其pid 在各库中统一为个人初次进入CFPS 调查

文档评论(0)

1亿VIP精品文档

相关文档