- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8、样本量估算的统计学方法
骆福添 公共卫生学院
参考教材:《生物医学研究的统计方法》
主编:方积乾,2007,高等教育出版社
一、临床研究为什么需要估计样本含量
复习1:统计学三大任务与三大规则
任务:描述样本特征、估计总体参数、检验总体差别
规则:(必须考虑) 数据类型、分布类型、对比类型
1. 统计描述任务
例:某样本个体分布的集中趋势与离散趋势怎样 ?(1V点,2V线,3V面.影子_线)
数据:计数(%),定量(平均数),等级(平均Ridit值)
分布:正态(Mean,SD,95%CR),对数正态(G),偏态(M, Q/R,P2.5~P97.5) (双/多变量-相关回归)
对比:变量=两组观察值(各组均数与标准差),变量=差值(差值的均数与标准差)
2. 置信区间任务
例:某总体指标在哪一区间 ?(借鉴反推)
数据:计数(直接法/正态近似),计量(正态法),等级(正态近似)
分布:正态(正态法),对数正态(lg值置信区间),偏态(百分位数法)
对比:变量参数置信区间,差值参数置信区间(临床试验)
3. 假设检验任务
例:某2个总体指标相同 ? (直接应用概率分布)
数据:计数(正态近似法u,卡方),计量(均数检验),等级(秩和检验)
分布:正态(u,t),对数正态(lg值t检验),偏态(秩和检验)
对比:组间比较(u, t, H),与总体比较(u, t, H)
统计推断中的误差估计
最基本公式:
误差=个体变异程度/n的平方根
均数误差 = 标准差/sqrt(n)
率的误差 = sqrt[p(1-p)/ n]
n大小举例
1、n=3,三个克隆
2、女大学生33%自动退学? n=?
3、n1=20,n2=100,n=?
4、1987年某产科医师为研究胎次与儿童智力的关系,收集病案资料(考上大学人数):第一胎19人、第二胎18人、第三胎10人、第四胎7人、第五胎4人。由此得出结论:智力与胎次有关,胎次愈多智力愈差,第一胎智力最好。 n=?
可重复原则
样本含量(Sample)的估计是临床研究科学设计的重要内容。
可重复性,是指任何科学研究必须遵守的原则,其目的是要排除偶然因素的影响,得出科学的、真实的、规律性的结论。
样本含量的大小
在临床研究中,样本含量越小,其抽样误差越大。
若样本含量不足,可重复性差,检验效能低,不能排除偶然因素的影响,其结论缺乏科学性、真实性。
若样本含量过大,试验条件难以严格控制,容易造成人力、物力和时间上的浪费。
估计样本含量的目的
在保证某个临床试验/临床研究的结论具有一定科学性、真实性和可靠性前提下,确定某研究所需的最小观察例数。
二、估计样本含量的方法
两大类方法
1、公式法,可满足多种设计的要求,目前应用广泛。
2、查表法,简单、方便,但受条件限制,有时不一定完全适应。
三、估计样本含量的步骤
1、确定设计方法
任何临床试验,其设计方案是首先需要确定的,而样本含量的估计也是在设计方案基础上的。不同的临床科研设计方法,其样本含量的估计方法不相同
2、确定资料类型
当临床试验的设计方案确定后,需要确定临床试验所得数据的类型,例如,计量(数值)、计数(无序分类)、等级(有序分类),因为样本含量估计方法与数据类型有关
3、考虑统计方法
样本含量的估计还要与以后将要使用的统计方法的条件相结合。如单因素分析、相关与回归、多因素分析等。目前样本含量估计的公式计算主要针对单因素分析,而多因素分析的例数估计请参考有关书籍
4、确定基本参数
在各种临床科研设计方法的样本含量估计中,需要研究者事先确定的条件有:
第一类错误的概率α,第二类错误概率β,容许误差δ。
若终点指标为数值变量时,还需要研究者确定总体标准差σ。
若终点指标为分类变量时,有时需要研究者确定总体率π。
(1)确定第一类误差的概率α
所有样本含量估计公式中,都需要uα的值,研究者确定检验水准(α)的大小后,查表得uα值。
α有单侧与双侧之分,单侧α的uα小于双侧uα值,所以按单侧计算的样本含量小于双侧。
α越小所需样本含量越大,反之越小,一般取α ≤0.05
样本含量计算中,需要uα的值,即研究者确定β大小后,查表的uα值。
确定β大小,主要是要确定检验效能(Power),用1-β表示其概率的大小,检验效能是指总体间确有差别时,假设检验能发现这种差别的能力大小。
β为第二类误差的概率,β值越小,检验效率越高,所需样本量也就越大,通常β=0.1或β=0.2。一般认为检验效率不能小于0.7。
(2)确定第二类误差的概率β
(3)确定容许限或插座δ
即有临床意义或研究意义的最小差值。
若为数值变量时,δ可为有临床意义的均数差值、实验前后之差等。
若为分类资料, δ可为有临床意义的有效率、患病率等率之差。
(4)确定总体标准差
文档评论(0)