7第七章节整群抽样.ppt

下载文档 降价啦

2
0
约4.28千字
约 30页
2017-09-13 发布于浙江
举报
版权申诉
保障服务

7第七章节整群抽样.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

7第七章节整群抽样

* * 第七章整群抽样若总体可分为 N个初级单元（称为群），每个初级单元包含若干次级单元。按照某种方式从总体中抽取 n个初级单元，对这些单元中的所有次级单元全部进行调查。这种抽样方法称为整群抽样。在实际工作中，整群抽样方法被广泛采用。例如，在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。采用整群抽样调查的原因有二。其一是在某些情况下，往往由于不适合采用一个个地抽取样本单位，不得不采用整群抽样。例如，某些工业产品的质量检验，事实上不能逐个抽取样本单位来进行，只能在某一时间内，成批地抽取产品来检验。其二，即使抽样调查能够一个个地取样，但由于经济的考虑也会选择整群抽样。例如，职工家庭生活水平调查中，如果不是以居委会为群进行整群抽样调查，而是以居民户为单位抽样，这些被抽到的居民户一般分散地居住，必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑，也得采用整群抽样调查。整群抽样作为一种抽样组织形式，具有以下的优点： 1、调查单位比较集中，进行调查比较方便，可以减少调查人员来往于调查单位之间的时间和费用。例如，在进行农村居民户收入情况调查时，在一个县抽千分之五的村庄，对其所有居民户进行调查，明显地比从全县直接抽千分之五的农户进行调查，更便于组织，节省人力、旅途往返时间及费用。 2、设计和组织抽样比较方便。例如，调查农村居民住户，不必列出农村所有居民住户的抽样框，可以利用现成的行政区域，如县、乡、村，将农村划分为若干群，这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体，采用整群抽样更为合适。然而，整群抽样由于调查单位只能集中在若干群上，而不能均匀分布在总体的各个部分，因此，它的精度比起简单随机抽样来要低一些。当然我们可以通过多抽几个群来弥补这一缺陷，但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性，应当使群与群之间尽可能地差异小，而群内单元之间的差异应当大（注意：这一点与分层抽样中总体内层的划分有着极大的差别），这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处，那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群，每个群的规模大小如何又是一个新问题，通常我们面临的总体会有自然的初级单元，例如本章开头所说的各所中学它们互相之间关于学生的体质很相似，但在一个学校里每个学生之间有一定的差异。例如，在一个有500个村庄、100000个农户的县，抽取 1％的农户就是1000户，而抽1％的村庄则只有5个村庄，也许抽到的5个村庄农户多于1000，但由于样本单位只集中在 5个村庄，显然不如在全县范围内简单随机抽取1000户分布均匀，代表性一般要差一些，抽样误差较大。倘若需要我们自行划分群，一般还要考虑到组织管理上的方便、精度上的要求以及费用的多少等等因素。 §1 群大小相等的整群抽样首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等，假定关于群的抽取是随机无放回的。首先引进一些必要的记号： ——表示第群中第个次级单元 ——表示样本中第群中第个次级单元的观测值 —第群总和 —第群平均值 —总体平均值 —总体差异平方和 —群间差异平方和 —群内差异平方和将改为，则为相应的样本指标值它们之间的关系为： (8.1) 将改为，代替，由于是整群抽样，仍为，不难得到样本方差平方和的关系式： (8.2) 可作为的估计，但不是无偏估计。这是因为次级单元是在抽到的群内普查，此时样本不是简单随机的。由于群的选取是简单随机的，因此与分别是与的无偏估计，于是得到的无偏估计为： (8.3) (8.4) 当相当大时，该估计可近似写为：从(8.2)式可知，若 n 也足够大的话，也可写成(8.4)形式，此时，就可以看作是的近似无偏估计了。再引进一个群内相关的记号，这个概念的重要性在于它可以度量群内次级单元的差异程度，因为我们已经知道群内单元的差异大就可能保证样本的代表性，如何划分群实质上是一个抽样方案的设计问题。易见设计的效应好还是差在相当程度上与这个有关。的定义为： (8.5) 具体计算得 (8.6) 计算可得，在一定程度上反映了