统计方法在生物信息学“精细定位”(fine-mapping)中的应用.docx

统计方法在生物信息学“精细定位”(fine-mapping)中的应用.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计方法在生物信息学“精细定位”(fine-mapping)中的应用

【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下:我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。携带某种基因易感位点的人,就会有很大概率换上某种疾病。我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS分析的思想如下:原文请戳这里:?/s?__bizMjM5MDEzNDAyNQmid座机电话号码4idx1sn54f1fd69d799ca841ed1a1b8b座机电话号码scene21【数说·大数据圈】机器学习在生物大数据应用的一个例子到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称为易感SNP集合,每一个位点,简单理解为一个SNP吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定犯错概率的,也没有经过生物学的证实。本文要说的精细定位,就是要进一步缩减候选的基因易感位点,排除掉一些“假”的位点。精细定位,叫做fine-mapping。必备前提在做fine-mapping之前,有三个前提一定要具备:第一,区域中所有的common SNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。第二,已经做过严格的quality control。第三,大样本,确保提供足够的power。满 足必备前提之后,我们进行fine-mapping,分成两部分,statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping,简单介绍一下统计方法在fine-mapping中的应用。statistical fine-mapping这一部分是本文的重点。在此步骤中,我们对GWAS中选出来的易感SNP集合进行统计分析,比较、排序其中SNP的重要次序,甚至删除掉一些不重要的SNP,缩小易感SNP集合的范围。大概有三种方法,一一列举如下:方法1:conditional regression我们在回归模型中,将最显著的那个SNP作为协变量进行控制,看其他SNP对疾病的影响是否还显著。选出P值最显著的几个易感SNP(P值通常要小于10的-8次方,因为要校正,所以视SNP的数量决定,参考?/s?__bizMjM5MDEzNDAyNQmid座机电话号码5idx1sncd914d2b1fddd66ca78f2f2f5e819233scene21浅议P值校正),缩小范围,精细定位。我们可以在plink中利用命令:plink -bfile mydata --linear --condition covariateSNP来实现。下面是一个例子, Fine mapping analysis of HLADP/DQ gene clusters on chromosome 6 reveals multiple susceptibility loci for HBV infection这篇文献中,作者想要看一下前人发现的,HLA-DP/DQ这两个基因簇与乙型肝炎(HBV)的显著关系,是否可以再具体定位到某个SNP或者block中。注:染色体、基因、block和SNP这四者大致是什么关系?(不专业的比喻,帮助理解一下,勿喷哈~)如果把SNP看做是一个具体的房子或者建筑物,那么block就是一片小区,基因大概就是一个城市,染色体差不多是一个省了。其中就使用到了conditional regression的方法垂直轴代表作为协变量的基因簇,水平轴代表需要detected的基因簇。白色代表显著,灰色代表不显著:HBV HLA-DP + (HLA-DQ + other covariates)HBV HLA-DQ + (HLA-DP + other covariates)从两个白色区域可以看出,HLA-DP和HLA-DQ都是显著的,因此,作者的第一个结论是:之前发现的HLA-DP和HLA-DQ两个基因簇对乙型肝炎的显著影响,是相互独立的。此外,作者又对HLA-DP上的三个block做了conditional regression:block 3位于HLA-DPA1,block 5位于HLA-DPB1,block 4位于HLA-DPA1和HLA-DPB1的overlap 区域。blocklocationblock 3in

文档评论(0)

dashewan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档