- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
市场调查与分析第十二章 抽样估计与样本容量确定
第十二章 抽样估计与样本容量确定 抽样估计的基本思路 市场调查的目的就是通过样本的数据来推测总体参数,从而估计总体特征。例如我们想知道总体的平均值就可以用样本的平均值来估计。 用样本均值来代替总体均值就是点估计,然而点估计虽然计算很简单,却只有在很少的情况下才完全正确,因此人们更偏向于区间估计。所谓区间估计就是对总体值落在某一范围内的可能性的推断。 实例:××路,工作日日人流总量定值估计值为771356人,在95%的概率保证程度下的区间估计值为726235人~816478人;非工作日日人流总量定值估计值为712113人,在95%的概率保证程度下的区间估计值为652891人~771335人。 要实现对总体的估计必须要了解一些基本的信息,包括总体的标准差情况、置信度、抽样分布等等内容。 下来我们以对总体均值的估计为研究对象,对这些基础知识进行一个简单的回顾。 一、正态分布——重要的统计分布 正态分布是一种钟形的、相对于其平均值对称的连续性分布。正态分布的统计特征在于: 1.只有一个众数。 2.相对于其平均值对称。 3. 正态分布由其平均值和标准差唯一确定。 4.正态分布曲线下方的总面积等于1,正态分布曲线下任意两个变量值之间的区域面积等于观察值处于这两个变量值之间的概率。 5.任何正态分布都可以通过简单的转化,变为标准正态分布。其转化公式为 正态分布具有良好的统计性质,如果一个变量符合正态分布就可以很方便的对它进行估计。 举例,利用标准正态分布进行区间估计: 设待估的总体参数为 ,样本的平均值为 假设 符合标准正态分布,则: 即 正态分布在统计推断中处于特别重要的地位。原因在于: 1.许多变量的概率分布都接近正态分布,如消费者消费掉的软饮料数量、爱吃快餐的人平均每月去快餐店的次数等。 2.正态分布在理论上重要,根据中心极限定理,任何总体不论其分布如何,随着样本容量的增加,样本均值趋近于正态分布 3.许多离散性概率分布也近似于正态分布。 总体分布、样本分布和抽样分布 总体分布是总体中所有单位的频率分布,总体的分布存在多种形式,一般情况下总体分布是未知的。总体分布的平均值用 表示,总体分布的标准差用 表示。 样本分布是单个样本所有单位的频率分布。样本分布是已知的。样本均值用 表示,标准差用S表示。 样本均值的抽样分布是从一个特定总体中抽取的给定容量的所有可能样本的平均值的概率分布。 总体的分布、样本分布可能不一定是正态分布,但是根据中心极限定理,样本平均值的抽样分布必定是正态分布。 对于正态分布来说 管的是曲线的位置, 管的是曲线的胖瘦。 不同的样本量确定的样本平均值抽样分布其 和 不同,所以对于规定的置信区间来说,大样本的平均值的抽样分布更“集中”,误差也小;从另一方面,如果误差确定,大样本的平均值的置信度更高。 计算总体均值的区间估计,就是想获得样本均值抽样分布的 和 ,从而根据置信度确定置信区间,然后在点估计的基础上确定区间估计。 例:从一个500人的总体中,采用简单随机抽样抽出一个10人的样本,每个入样单元的年龄见下表。求平均年龄估计值的抽样方差、标准差,并计算在95% 的置信水平下的误差限于相应的置信区间。 1.计算点估计值: =(21+26+……+47)/10=34.4 2.计算抽样方差的估计值: 计算每个人的年龄与其平均数的差;计算离差的平方;以离差的平方和除以样本量减1的值作为总体方差的估计值(64.27);以总体方差的估计值处以样本量得到抽样方差的估计值(6.4)。 3.标准差为抽样方差的平方根(2.5) 4.95%置信度下的误差限为1.96*2.5=4.9 5.置信区间为(34.4-4.9,34.4+4.9)即(29.5,39.3) 样本量的确定 在确定概率抽样样本容量的过程中涉及财务、统计和管理3个方面的问题。在其它条件相同的情况下,样本越大,抽样误差就越小。但样本越大,耗费的资金也越多。 而且,虽然抽样成本随着样本容量的增加呈线性递增(样本容量增加一倍,成本也增加一倍),抽样误差却只以相当于相应样本容量增长幅度的平方根的速度递减。 换句话说,如果样本容量增加到原来的4倍,数据收集成本也将增加到原来的4倍,但抽样误差将只减少1/2. 最后,样本容量的确定还必须考虑管理问题:要求多高的估计精确度(抽样误差)? 确定样本容量的方法: 可支配预算 单凭经验的做法 要分析的子群数 传统的统计方法 影响样本容量的因素 1.误差限 2.总体的变异程度 3.总体大小(如果样本容量占总体比例较小则影响不大) 4.抽样设计 5.调查的回答率 给定均值精度,计算简单随机抽样样本量
文档评论(0)