本科生角度谈生物医学数据的建模心得.docx

下载文档 降价啦

11
0
约3.49千字
约 7页
2018-11-12 发布于贵州
举报
版权申诉
保障服务

本科生角度谈生物医学数据的建模心得.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本科生角度谈生物医学数据的建模心得

本科生角度谈生物医学数据的建模心得　　摘要：由于生物医学研究领域数据的复杂性，高效的统计建模尤为重要。笔者以肺癌全基因组关联研究为例，结合建立肺癌风险预测模型的切身体会，建议研究者需要重视数据质量控制体系、反复推敲建模方法和策略、培养熟练的软件操作技能。　　关键词：生物医学数据；统计建模；预测模型；心得体会　　随着生物信息技术的飞速发展，生物医学研究领域的数据呈几何级增长。近年来，生物医学大数据受到学者们的广泛关注。生物医学大数据具有典型的“4V”特征：体量巨大（volume）、种类繁多（variety）、实时更新（velocity）、价值隐藏（value）[1]；“3H”特点：高维（highdimension）、高度计算复杂性（highcomplexity）、高度不确定性（highuncertainty）[2]。因此，综合利用生物学、医学、数学、流行病学、统计学、计算机学等多个学科的方法和手段，从中挖掘“有价值”的信息，为生物医学研究提供确凿有效的证据，显得尤为重要。笔者以肺癌全基因组关联研究（genome-wideas-sociationstudy，GWAS）为例，结合理论学习和案例实践的切身体会，浅谈利用GWAS数据建立肺癌风险预测模型的心得体会。　　一、严谨的数据质量控制体系不容忽视　　由于存在检测、观察、填写或录入错误，未经数据质控的原始数据极可能含有一些异常，甚至错误的观测值。在研究设计之初，便要尽可能考虑规避产生错误数据。另外，统计建模之前，仍然必须对原始数据再次进行质量控制。在GWAS中，要同时对行（样本）、列（位点）进行质量评价。例如，删除次等位基因频率低于5%、缺失率超过5%或哈代不平衡的位点；删除分型失败率超过5%、问卷性别与遗传性别不一致、存在血缘关系、属于离群值的样本[3]。另外，同时需要对流行病学问卷及临床数据进行核查。只有对数据进行清理后，才能用于后续关联分析、统计建模。　　二、合理的建模方法和策略值得精雕细琢　　对于GWAS高维数据，合理的方法和策略不仅要考虑统计学性能（一类错误、检验效能、预测精度），还需要考虑分析效率（计算速度）。因此，研究者应该要深入思考，为研究项目量身定制一套“合理”的方法和策略。然而，现有的统计学模型和方法往往都有相应的应用条件。实际数据由于其变量结构的复杂性，不一定完全满足所有的应用条件。并且，简单的算法速度快，但统计性能相对低；复杂算法需要牺牲计算速度来提升统计性能。因此，研究者可能需要制定多个备选方案。结合建模步骤，笔者将从以下几个方面，浅谈个人心得体会。1.初始模型：一般拟合logistic回归模型评价肺癌风险。模型中往往需要纳入一些协变量，例如：年龄、性别、吸烟、人群分层等。一般参考以下纳入原则：（a）在模型中有统计学意义（P≤）；（b）即便在模型中无统计学意义，但绝大多数同类研究显示其是公认的影响因素。某些协变量可能是位点的混杂因素，例如人群分层。如果GWAS中忽视调整混杂因素的影响，则有可能导致误报噪音位点的一类错误膨胀，或识别致病位点的检验效能降低[4]。此外，研究者还需要考察协变量进入模型的形式。一般而言，无序分类变量以哑变量形式进入模型。当某些类别样本量特别小，需要进行类别合并。有序分类变量、连续性变量则需要考虑是否以非线性的形式进入模型。一种最简单的方式是，将连续性变量转化为有序分类变量，并以哑变量形式进入模型。如果哑变量各组的系数呈现线性递增的趋势，则提示原始变量与结局变量间存在线性关系。否则，可采用哑变量、样条函数等方法处理非线性关系。2.因素筛选：研究者需要从GWAS数据50万位点中筛选出肺癌相关位点，加入初始模型，以提高模型的预测精度。常规做法是，在初始模型中逐个纳入位点，对位点的主效应进行假设检验。因检验次数达50万次，研究者必须要考虑多重比较所致的一类错误膨胀。常见一类错误控制方法有Bonferroni法和FDR法。前者较为严格，后者较为宽松。GWAS识别位点一般采用“宁缺毋滥”的原则，倾向于采用严格的校正方法。除此之外，研究者还要在多个独立的人群中验证初筛的位点。如果位点在多个人群中都显示与结局存在统计学关联，则认为该位点是潜在的影响因素。除基因位点主效应外，研究者还需要关注基因-基因、基因-环境交互作用。复杂疾病往由环境、基因相互影响，共同导致。因此，有必要在模型中对交互作用进行评估。例如，基因-环境交互作用可以显著提高肺癌风险预测模型的预测精度[5]。有效的降维策略能够提高因素筛选的效率。笔者曾采用“信息熵初筛→对数线性模型再筛→多因素lo-gistic回归模型确认”的降维策略进行全基因组基因-基因交互作用分析[6]。信息熵方法计算速度快，且其统计量总是不小于对数线性模型，不会出现漏检的情况。前两步可以检验次数将1