样本量估算的统计学方法.pptVIP

下载本文档

15
0
约3.48千字
约 10页
2017-06-25 发布于北京
举报
版权申诉

样本量估算的统计学方法.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

8、样本量估算的统计学方法骆福添公共卫生学院参考教材：《生物医学研究的统计方法》主编：方积乾，2007，高等教育出版社一、临床研究为什么需要估计样本含量复习1：统计学三大任务与三大规则任务：描述样本特征、估计总体参数、检验总体差别规则：（必须考虑）数据类型、分布类型、对比类型 1. 统计描述任务例：某样本个体分布的集中趋势与离散趋势怎样？（1V点，2V线，3Ｖ面.影子_线）数据：计数（%），定量（平均数），等级（平均Ridit值）分布：正态(Mean，SD，95%CR)，对数正态(G)，偏态(M, Q/R，P2.5~P97.5) （双/多变量-相关回归）对比：变量=两组观察值（各组均数与标准差），变量=差值（差值的均数与标准差） 2. 置信区间任务例：某总体指标在哪一区间？（借鉴反推）数据：计数（直接法/正态近似），计量（正态法），等级（正态近似）分布：正态（正态法），对数正态(lg值置信区间)，偏态（百分位数法）对比：变量参数置信区间，差值参数置信区间（临床试验） 3. 假设检验任务例：某2个总体指标相同？（直接应用概率分布）数据：计数（正态近似法u,卡方），计量（均数检验），等级（秩和检验）分布：正态（u,t），对数正态（lg值t检验），偏态（秩和检验）对比：组间比较（u, t, H），与总体比较（u, t, H）统计推断中的误差估计最基本公式：误差=个体变异程度/n的平方根均数误差 = 标准差/sqrt(n) 率的误差 = sqrt［p(1-p)/ n］ n大小举例 1、n=3，三个克隆 2、女大学生33%自动退学？ n=？ 3、n1=20，n2=100，n=？ 4、1987年某产科医师为研究胎次与儿童智力的关系，收集病案资料（考上大学人数）：第一胎19人、第二胎18人、第三胎10人、第四胎7人、第五胎4人。由此得出结论：智力与胎次有关，胎次愈多智力愈差，第一胎智力最好。 n=？可重复原则样本含量（Sample）的估计是临床研究科学设计的重要内容。可重复性，是指任何科学研究必须遵守的原则，其目的是要排除偶然因素的影响，得出科学的、真实的、规律性的结论。样本含量的大小在临床研究中，样本含量越小，其抽样误差越大。若样本含量不足，可重复性差，检验效能低，不能排除偶然因素的影响，其结论缺乏科学性、真实性。若样本含量过大，试验条件难以严格控制，容易造成人力、物力和时间上的浪费。估计样本含量的目的在保证某个临床试验/临床研究的结论具有一定科学性、真实性和可靠性前提下，确定某研究所需的最小观察例数。二、估计样本含量的方法两大类方法 1、公式法，可满足多种设计的要求，目前应用广泛。 2、查表法，简单、方便，但受条件限制，有时不一定完全适应。三、估计样本含量的步骤 1、确定设计方法任何临床试验，其设计方案是首先需要确定的，而样本含量的估计也是在设计方案基础上的。不同的临床科研设计方法，其样本含量的估计方法不相同 2、确定资料类型当临床试验的设计方案确定后，需要确定临床试验所得数据的类型，例如，计量（数值）、计数（无序分类）、等级（有序分类），因为样本含量估计方法与数据类型有关 3、考虑统计方法样本含量的估计还要与以后将要使用的统计方法的条件相结合。如单因素分析、相关与回归、多因素分析等。目前样本含量估计的公式计算主要针对单因素分析，而多因素分析的例数估计请参考有关书籍 4、确定基本参数在各种临床科研设计方法的样本含量估计中，需要研究者事先确定的条件有：第一类错误的概率α，第二类错误概率β，容许误差δ。若终点指标为数值变量时，还需要研究者确定总体标准差σ。若终点指标为分类变量时，有时需要研究者确定总体率π。（1）确定第一类误差的概率α 所有样本含量估计公式中，都需要uα的值，研究者确定检验水准（α）的大小后，查表得uα值。 α有单侧与双侧之分，单侧α的uα小于双侧uα值，所以按单侧计算的样本含量小于双侧。 α越小所需样本含量越大，反之越小，一般取α ≤0.05 样本含量计算中，需要uα的值，即研究者确定β大小后，查表的uα值。确定β大小，主要是要确定检验效能（Power），用1-β表示其概率的大小，检验效能是指总体间确有差别时，假设检验能发现这种差别的能力大小。 β为第二类误差的概率，β值越小，检验效率越高，所需样本量也就越大，通常β=0.1或β=0.2。一般认为检验效率不能小于0.7。（2）确定第二类误差的概率β （3）确定容许限或插座δ 即有临床意义或研究意义的最小差值。若为数值变量时，δ可为有临床意义的均数差值、实验前后之差等。若为分类资料， δ可为有临床意义的有效率、患病率等率之差。（4）确定总体标准差