- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四部分 数据的解读定量分析 陆立强 复旦大学数学系第十章 置信区间定量分析 陆立强 复旦大学数学系统计量及其分布样本的均值、方差、比例、回归直线的斜率等称为样本统计量(简称:统计量)统计量与采集的样本有关,属于随机变量,服从的分布称为抽样分布:样本所属随机变量的分布称为总体分布例:18-24岁间的女性身高服从正态分布,则随机抽取所的1个女青年的身高也服从上述分布抽样分布不同于总体分布,但与后者有关定量分析 陆立强 复旦大学数学系样本比例分布适用条件有某种相同特性的成员在总体中所占比例是一个确定值;或者可以通过重复试验得到某种结果发生的相对频率或概率随机抽样应保证总体中所有的对象被抽取的可能性相等;或者每次重复试验的结果是独立的;样本的总量(或者试验重复次数)要足够大,具体数值和所研究的比例或者概率的大小有关,但是在样本中所包含的结果或者重复次数不能少于5个例:投票结果抽样调查例:电视节目收视率调查定量分析 陆立强 复旦大学数学系分布 在满足上述条件的前提下,如果每次采样的样本个数相等,那么样本比例的分布近似于正态分布 , 其中p为总体比例,n为样本个数。用途:根据总体比例估计样本比例及其分布。 例:支持率样本值估算定量分析 陆立强 复旦大学数学系样本均值分布适用条件测量数据满足正态分布或者如果测量数据不满足正态分布,则随机抽得样本应足够大(一般不少于30个,如果数据中存在离群值,样本还需更大些,但一般不超过80)。例:学生打工收入调查定量分析 陆立强 复旦大学数学系分布样本均值的分布等于(近似于)正态分布N(?,?2/n) 样本大小:n; 总体均值:?;总体方差:?2;说明: 如果?确定,那么当n增加时,样本均值的方差就减少,这意味着样本均值就越准确。这和“样本越大,对总体的估计就越正确”的实际经验相符。例:减肥效果评估定量分析 陆立强 复旦大学数学系案例:美国公民实际投票情况 1994年11月8日,美国共和党自1952年以来首次在国会参众两院都拥有多数席位。11月28日,《时代》公布了参选情况的电话调查数据,结果在800位成年人中有为56%回答参加了选率,和68%的登记率相比,这是一个不错的结果。与此同时,该周刊还公布了由“美国选情研究委员会” 提供的一个令人惊讶的数据,美国成年人实际的投票率为39%。这两个数据的矛盾该如何解释?是否其中一个是不对的呢? 结果:电话调查显示的投票率超过了实际投票率在其他选举时,例如1992年总统选举,也发生了调查投票率超过实际投票率的情况。定量分析 陆立强 复旦大学数学系置信区间背景:实际问题中较少用总体参数估计样本,更多的是用样本统计量估计总体参数,并且给出这种估计的误差范围例:新药疗效试验,20个服药者中缓解有12人,对照组20人缓解有8人。问:新药真的有效吗?答:初看的确有效。但如果有人运用统计推断知识告诉你,在5次试验中只会出现1次上述情况。那么,你还会为新药真的有效吗前提:样本是随机抽取的。定量分析 陆立强 复旦大学数学系置信区间(Confidence Interval)背景:SAT考试。为了通过SATM成绩了解某地区420000个高中生的数学能力,从参加该项考试的学生(占总数45%)中随机抽取500个学生,它们的平均成绩 (总体为500分),那么该地区的平均分μ该为多少呢?直觉:461可以,但有多大胜算呢?目标:根据样本数据得到一个区间(a,b),该区间几乎保证覆盖μ 。概率语言:P{μ属于(a,b)}接近100% (a,b)称为μ的置信区间, P称为μ的置信水平,定量分析 陆立强 复旦大学数学系纠结之处:P越大,(a,b)范围越大,实际意义越小;范围越小,则P则会减小,可靠性降低。置信水平不可能达到100%,除非将总体全部作为样本。一般要达到95%。置信水平为95%的正确理解:采用这种方式计算得到的置信区间包含参数的可能为95%。所以:置信水平本质上是对统计方法(统计量)的评价,而不是对具体某个区间正确与否的评价。定量分析 陆立强 复旦大学数学系比例置信区间95%置信区间的计算公式样本比例P’呈正态分布 N(p,?2),p就是总体比例,?=(p*(1-p) /n)1/2, n等于样本个数。根据3?准则,样本比例值位于区间(p-2?,p+2?)的概率为0.95上述事实等价于如果给定一个样本,可以有95%的把握认为p与p’ 的误差不超过2?。如果我们将p’代替p来计算?,则可以得到总体均值的95%置信区间为 (p’-2*(p’*(1-p’) /n)1/2, p’+2*(p’*(1-p’) /n )1/2)定量分析 陆立强 复旦大学数学系例:“矮丈夫,高妻子”知多少?在随机抽取的200对夫妇中,有10对属于此类。则P’=0.05, ?=(0.05*(1-0.05)/200
文档评论(0)