- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
?
?
人口普查净误差估计中的双系统估计量研究
?
?
人口普查净误差估计一直是各国统计局在人口普查质量评估中优先考虑的问题,也是普查数据用户最为关心的问题。净误差的一个显著特征是无法从人口普查数据本身获得,而主要是通过把普查登记人口数减去估计的总体实际人口数得到。目前世界各国通常使用双系统估计量或人口统计分析估计量估计总体实际人口数。人口统计分析估计量由美国普林斯顿大学教授Coale在美国1950年人口普查结束后不久提出(Coale,1955),并于1960年首次应用于美国人口普查质量评估。该估计量的一个明显缺陷是,未利用本次人口普查家庭或个人信息资料这一重要的辅助信息。
如何把本次人口普查信息利用起来成为学术界关注的焦点。伴随着这方面的长期研究,学者们构造了利用本次普查人口登记名单辅助信息和质量评估调查资料的双系统估计量。该估计量起源于丹麦生物学家Petersen(1896)和美国鸟类学家Lincoln(1930)发明的捕获一再捕获模型。由于人口调查比捕获动物复杂得多,所以用实际调查数据构造双系统估计量需要解决许多技术细节问题。从美国1980年、1990年、2000年和2010年人口普查质量评估方案中,可以看到双系统估计量逐步自我完善和自我优化的过程(National Research Council,2009;United Nations Secretariat,2010;贺本岚等,2010;胡桂华,2011;胡桂华,2013)。
在2000年人口普查质量评估中,美国普查局还使用合成估计量(Ghosh和Rao,1994)估计各个州、县、普查制表区、街区(统称区域)等的实际人口数及普查净误差。合成估计量的基本思想是,将使用双系统估计量计算的横贯全国的每一个事后层的普查覆盖修正因子用于全国以下区域的人口数目估计。美国对双系统估计量的研究及应用,代表了该领域的国际前沿水平,所以本文以美国2000年人口普查质量评估方案①为背景(Mule和Konicki,2012;胡桂华和吴东晟,2014),通过技术解读、理论诠释的方式论述双系统估计量及其方差估计量(Wolter,2007)的构造原理。
一、双系统估计量以及基于质量评估样本对其估计
1.事后分层
双系统估计量要求在被人口普查登记概率相同的人口层中构造。然而,总体中的人口被人口普查登记概率存在差异。解决这个问题的一个自然想法是,把总体中被人口普查登记概率相同的人放在同一层,在这样的层(通常称之为事后层)构造和应用双系统估计量。所谓“被登记概率相同”是在相对的意义上来说的。我们能够做的事情只能是,使得划分到同一个层内的那些人被登记的概率大致差不太多。人口普查质量评估实践经验表明,人口统计特征(性别、年龄等)可以作为对总体人口进行等概率事后分层的变量。利用这些变量形成各种交叉层(又称事后层)。受样本总量所限,有些交叉层不得不合并。美国2000年人口普查质量评估原计划将人口总体划分为448个交叉层,后来通过前合并与后合并减少了32个,结果448个交叉层被压缩到416个。
2.P样本和E样本的构成
为了更好地理解双系统估计量,先简要介绍一下与双系统估计量及其构成部分构造密切相关的P样本和E样本的构成。
双系统估计量要求获得样本地理区域(街区群等)普查时编制的人口登记名单与质量评估调查追溯普查时点的人口登记名单的匹配人口数,即同时被它们登记的人口数。为此,需要在这两份人口登记名单之间进行比较操作,即比较两份人口登记名单中的每一个人的姓名、年龄、性别、婚姻状况、文化程度、民族或种族、地理位置等变量。如果两份名单中的人在所有这些变量方面完全相同或90%以上相同,就称为匹配人口,反之称为未匹配人口。
很显然,如果人口登记名单中的人口信息登记不全,甚至是不属于人口普查目标总体,就会给比较带来困难或得到虚假的比较结果,从而影响到双系统估计量所估计的总体实际人口数精度。为使比较顺利进行,需要从普查登记人口名单中剔除不属于普查目标总体中的人口和信息登记不全的人口(如只登记姓名而未登记诸如年龄、出生地等信息)。把样本街区群普查人口登记名单剔除这些普查登记人口后剩余的人口称为E样本。美国2000年人口普查质量评估方案最终E样本未加权人口数为704602人。
由于人口普查质量评估调查属于抽样调查,其工作量比人口普查小得多,因此有条件把人口的普查时点追索登记工作做得尽可能细致,有条件减少诸如登记了非普查目标总体成员、调查项目填写不齐全等问题。因此,直接把人口普查质量评估调查样本当作是P样本。美国2000年人口普查质量评估方案最终P样本未加权人口数为653338人。
人口普查质量评估调查时所进行的人口登记,是对普查时点人口的追溯登记。可是,进行此种登记的时间已
文档评论(0)