- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结合大型资料库与小型确证资料的二阶段校正(TSC) 统计分析法
臺北醫學大學生物統計研究中心 eNews 第 12 期 2016/04
結合大型資料庫與小型確證資料的二階段校正 (TSC) 統計分析法
中央研究院統計科學研究所 程毅豪
大型電子化健康數據資料庫如健保資料庫分析在近年的醫學研究中日漸普
及。這樣的研究具有省時省力,且可避免回溯性研究之回憶偏差等優點。然而此
類研究的重要侷限之一,是這些大型資料庫的資料收集並非針對學術研究目的,
因此其往往缺乏較詳盡的關於個人之干擾因子 (confounder)如吸菸、飲酒、飲食
習慣與職業暴露等,以及 生物標記(biomarker)測量如血壓血糖等資訊,因此這些
資料庫無法產出較精準的研究成果 。
一個解決此問題的方法是設法由一些專門的研究或調查資料庫中取得較詳
盡 完整的資料,其包含了 干擾因子及生物標記資料。這樣的資料 我們可稱之為確
證樣本資料 (validation data) 。此確證樣本可提供校正了干擾因子及生物標記資訊
的研究結果,因 而可得出較為準確的研究結論。但相較於前述的大型資料庫,此
類專門性的研究或調查資料庫往往所收集的個案數規模小了許多,因而影響其統
計上的效力 (power) 。
在此介紹一個二階段校正統計分析方法 (Two Stage Calibration, TSC) ,其基
本想法是將上述兩類資料於分析時加以截長補短 ,做適當的結合,並校正在主樣
本 (大型資料庫資料) 分析中因為缺乏干擾因子及生物標記資料所可能 產生的
偏誤。在第一階段中, TSC 將主樣本與確證樣本結合 (總樣本數為 主樣本數N1 +
確證 樣本數 N2) ,並取出同時出現於兩樣本中的變數 (排除確證樣本中的干擾因
子及生物標記變數,因其未出現於主樣本中) ,並根據此整併之資料進行統計分
析。由於此階段並未利用干擾因子及生物標記資料因大型資料庫無此項資料( ) ,
因此雖然此時有較大樣本數 (N1+N2) ,但只能 以較簡略的分析模式 (如疾病與處
置相關性的迴歸分析,未校正干擾因子與生物標記 ) 得到 統計分析結果。
臺北醫學大學生物統計研究中心 eNews 第 12 期 2016/04
在第二階段中,TSC 僅對確證樣本進行分析,即樣本數僅為確證樣本的樣
本數N2 。此時可進行兩種分析: 一為利用與第一階段相同的簡略 分析模式 (未校
正干擾因子與生物標記之疾病與處置相關性的迴歸分析) ,只是資料由原先的整
併資料 ( 主樣本+確證樣本 )改為僅用確證樣本資料,即樣本數由 N1+N2 變為
N2 。另一為利用進一步 校正干擾因子及生物標記的精確分析模式 (疾病與處置在
校正干擾因子與生物標記後之相關性的迴歸分析 ) ,並利用確證樣本資料 ( 主樣
本因 無干擾因子與生物標記資料故無法 直接利用) ,樣本數為N2 。根據數理統計
學中的理論,此兩階段的分析結果為相依的多變數常態分布,因此利用下述公
式:
2 C
( 1 2)
可得到最後的結合主樣本與確證樣本的 TSC 迴歸分析結果 ,其中2
代表利用確證樣本與精確分析模式 (校正干擾因子及生物標記資料所得到的迴)
歸係數, α1 與α2 為分別利用整併資料及確證資料 分析粗略模式 (未校正干擾因
子及生物標記資料)所得到的迴歸係數, C 為 2 與α1 -α2 的共變異數。 TSC
迴歸係數 與 2 (確證樣本中精確分析模式之迴歸係數 ) 具有相同的意義,即
他們都是校正干擾因子及生物標記資訊後得到的分析結果,因此較 α1 與α2 的
結果更為準確 因( α1 與α2 未校正干擾因子及生物標記資訊) 。
文档评论(0)