其他抽样复杂样本及方差估计与非抽样误差.ppt

下载文档 降价啦

51
0
约6.79千字
约 52页
2018-06-14 发布于福建
举报
版权申诉
保障服务

其他抽样复杂样本及方差估计与非抽样误差.ppt

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

其他抽样复杂样本及方差估计与非抽样误差

对其他psu进行分层：保证每一层内的人口大约为650,000，psu的分层主要按照1980年普查获得的地理位置及人口统计信息，以及全国统一犯罪报告提供的犯罪率。（各层的受害率差异较大）在每一层中按照与psu的人口总数成比例的概率抽取一个psu。这个psu是非自我代表的(non-self-representing，NSR)。在1990年的NCVS中，共抽取84个SR的psu和153个NSR的psu。第二阶段抽样的第二阶段是抽取地区清单（enumeration district，ED， 1990年普查中称为address register area，ARAs ）。一个ED包含300至400户家庭，但各个ED所包含的人口规模及覆盖的土地面积差异较大。按照与人口总数成比例的概率抽取ED 。为保证由ED组成的样本近似自加权。列表中所有ED是按照地理位置排列的，采用系统抽样抽取ED，可以保证被抽中的ED在地理位置上分布均衡。假设所有ED的总抽样比为1/x：对于SR的psu，在每个psu中每隔x个ED抽取一个ED；对于NSR的psu，系统抽样间隔为（psu的入样概率）*x。第三阶段在抽样的第三阶段，对每个ED进行分群，每个群基本都包含4个住房单元（housing units）（普查中按照地理顺序列出了每个Ed中的住房单元，在可能的情况下会使用该清单进行抽样）。一旦抽中某个群，则该群中的4个住房单元全部入样。访问对象为每个家庭中所有年龄在12岁及以上的成员。如果仅仅使用普查（每十年一次）获得的住房单元清单，由于清单内没有记录新建的住房单元，那么有可能存在总体的覆盖不足（undercoverage）。 1990年NCVS的抽样过程阶段抽样单元分层 1 psu(县、一组相邻的县或者是大型城市统计区（MSA）) 地理位置、人口信息以及犯罪相关特征 2 地区清单（ED） 3 含有4个住户单元的群 4 家庭 5 每个家庭成员 1990年NCVS共抽取62,600个住房单元（包括普查清单中没有的住宅区）。其中：采用主问卷的56,800个住房单元中（新搬入的住户则采用另一套问卷）：有8200个不合格，原因有住房单元无人居住，或者拆除，或者不再作为居民住房等等。有1600个住房单元完全无回答，原因可能是住户无法访问到或者拒绝访问。 1990年NCVS的无回答率为1600/48,600，即3.3%。这样共有95,000个人回答了问卷。 NCVS是采用了复杂调查设计，该调查被设计成是近似自加权的， 1980年以后的NCVS基本权重（base weight）为1658：（1/住户单元被抽中的概率）权数调整：加权控制因子（weighting-control factor，WCF）有可能原来ED中的独立单元被一座公寓所取代。只有从该群抽取子样本进行访问。若该群只有1/3的住房单元被抽中，那么该子样本中的住房单元的WCF为3。每个入样的住房单元代表总体中的住房单元数为： base weight * WCF。无回答权重调整：增加每一组回答者的权重是为了使它们除了代表原先设计的那些单元，还代表样本中的无回答者，以及这些无回答者所代表的总体中未入样的单元。 WHHNAF （within-household non-interview adjustment factor），补偿家庭中部分无回者。在每个区域内，来自至少有一个人回答的家庭成员，按照指定参照人的种族、家庭中无回答成员的年龄和性别，以及无回答者与参照人的关系，分成24组。对于访问案例少于30个或者WHHNAF大于或等于2的组将被合并。 HHNAF （household non-interview adjustment factor）。补偿整个家庭都无回答的家庭。按照MSA级别，城镇/农村，以及参照人的种族，将所有家庭分组，对于HHNAF大于或等于2的组，会合并，直到所有组的HHNAF小于2。每个人的权重为：base weight * WCF* WHHNAF*HHNAF 每个回答者的权重被增加了，这样使得他们可以代表与其在背景信息上类似的无回答者。两阶段比估计：第一阶段只针对NSR的psu，将所有psu按照区域、MSA级别以及种族进行分组，分别赋予不同的权重，调整入样的NSR的psu与所有psu在普查信息上的差异最大值：1.3 比估计第二阶段因子（second-stage factor，SSF）。样本中的每个人按照其年龄、种族及性别被分成72个组。要求每个组至少有30个回答者，并且计算出的SSF在0.5和2.0之间。 SSF是一种事后分层：目的在于使估计总体的样本在年龄、种族及性别的分布上更真实。比如样本中年龄较大的白人女性的权重之和比最近的普查