基于CHNS数据的抽样技术与试验设计.docVIP

下载本文档

135
0
约2.1千字
约 4页
2017-03-11 发布于北京
举报
版权申诉

基于CHNS数据的抽样技术与试验设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于CHNS数据的抽样技术与试验设计.doc

基于CHNS数据的抽样技术与试验设计　　摘要：抽样技术是数据处理的一种方式，使得数据的处理过程不再那么繁琐，并且可以减小成本。CHNS中1989年的家庭调查问卷中有很多调查问题。本文主要找出影响结婚年龄的因素，建立计量经济学模型并对各个因素进行显著性检验。　　关键词：抽样技术；CHNS；显著性检　　一、前言　　抽样是对总体数据的一种处理方法。　　有时候，面对很大的数据库，我们可以不用对每个数据都进行处理，可以使用抽样方法来处理，这样既可以节省时间，也可以缩小开支。只要使用的抽样方法合适，那么我们处理数据后得到的结果是能代表总体的。当然，抽样方法的使用必须得根据实际情况来进行选择，我们首先要做的就是把总体数据分析清楚，然后再确定抽样方法。　　CHNS（China Health and Nutrition Survey）是指中国健康营养调查，其中有1989年～2006年中间7年的数据，本文取的是1989年8月31日到1990年1月20日的家庭调查的数据，其中共有15924个调查对象，因为种种原因，不可避免的有一些数据缺失。本文主要是考察这些数据中影响结婚年龄的因素，当然，这些缺失的数据对总体的数据处理不会产生很大的影响。　　二、抽样方法简述　　2.1简单随机抽样。简单随机抽样是指从总体N个单位中抽取n个样本且抽取时各个被抽取的样本被抽取到的概率相等的一种抽样方法。简单随机抽样包括放回抽样和不放回随机抽样。　　简单随机抽样的特点是每个被抽取的样本的概率相等，样本的每个单元完全独立，彼此间无一定的关联性和排斥性；它的缺点是只适用于总体单位有限的情况，否则太过繁重。　　2.2分层抽样。分层抽样是先将总体的单位按某种特征分为若干层，然后在从每一层内进行简单随机抽样，组成一个样本。　　分层抽样的特点是可以提高总体指标估计值的精确度并可以对总体不同的层次进行单独研究。　　2.3整群抽样。整群抽样是将总体中各单位归并成若干个互不交叉、互不重复的集合，称之为群，然后以群为单位抽取样本的一个抽样方法。　　整群抽样的有点是实施方便，节省经费；它的缺点是往往由于不同群之间的差异较大，因此而引起的抽样误差往往大于简单随机抽样。　　2.4多阶段抽样。多阶段抽样是指抽样过程按阶段进行，每个阶段使用的抽样方法往往不同，即将各种抽样方法结合使用。其实施过程为，先从总体中抽取范围较大的单元，称为一级抽样单元，再从每个抽得的一级抽样单元中抽取范围更小的二级单元，以此类推，最后抽取的范围最小的单位称为基本单元。　　2.5系统抽样。系统抽样首先将总体中各单位按一定顺序排列，根据样本容量要求确定抽取间隔，然后随机确定起点，每隔一定的间隔抽取一个单位的抽样方法。系统抽样的有点是比简单随机抽样更为简单，花的时间更少，而且花费也少；它的缺点在于总体单位的排列，有些总体单位可能包含隐蔽的形态或者不合格样本，调查者可能疏忽，抽取它们为样本。　　三、数据处理　　整个数据表中，有一些缺失的数据。　　调查日期从890831到900120，其中有日期的数据有15924个，缺失日期的数据共有169个；家庭编号从2111101到5224420，家庭编号是根据家庭人口数来确定的，没有数据缺失；a9和a10有较多的数据缺失，一个原因可能是因为时间较久，数据缺失也很正常，另一个原因就是涉及到个人隐私问题，调查对象可能不太想透露；另外，a13和a15数据也有少量的缺失。　　根据实际情况来分析，我们首先就可以确定t7、hhid、line、a2、a3、a5、a6、a7、a8、a14、a15、addlate、t6、a4、commid等变量都对结婚年龄基本没有影响，而a10、a11、a12、a13等变量应该都对结婚年龄有一定的影响，下面我们就主要分析在这四个变量的影响下的平均结婚年龄。　　数据处理步骤：　　（1）去掉a9（结婚年龄）中缺失的数据；（2）计算a9的平均值；（3）分别对a10、a11、a12、a13的数据进行分类，对每类数据进行简单随机抽样，去掉缺失数据，并计算平均结婚年龄（类别较多的数据计算具有特征性类别的平均年龄）；　　方程的显著性检验：由上述stata运行结果可以看到，做回归分析后，F值为78.17，而p值为0.0000，由此我们可以判断方程是显著的。　　参数的显著性检验：由上述stata运行结果可以看到，a10和a13的t值的绝对值均小于2，根据2-t经验法则，可以知道a10和a13对平均结婚年龄的影响是不显著的；而a11和a12的t值的绝对值均大于2，根据2-t经验法则，可以知道a11和a12对平均结婚年龄的影响是显著的。（作者单位：湖南科技大学）　　参考文献：　　[1]张鹏伟，李