统计方法在生物信息学“精细定位”(fine-mapping)中的应用.docx

下载文档

180
0
约3.68千字
约 6页
2016-12-10 发布于重庆
举报
版权申诉
保障服务

统计方法在生物信息学“精细定位”(fine-mapping)中的应用.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

统计方法在生物信息学“精细定位”(fine-mapping)中的应用

【生物大数据】统计方法在生物信息学“精细定位”（fine-mapping）中的应用之前我们发过一篇文章，文章中说如何寻找与某个疾病相关的遗传信息，简单复习一下：我们每个人所带的基因是差不多的，之所以有的人卷发，有的人直发，有这么丰富多彩的变化，就是因为一些基因发生了改变。目前，科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析，并找到了疾病相关的多个易感位点。携带某种基因易感位点的人，就会有很大概率换上某种疾病。我们通过全基因组关联分析（GWAS）找出来与某个疾病关联最大的基因位点集合（SNP或说variant），GWAS分析的思想如下：原文请戳这里：?/s?__bizMjM5MDEzNDAyNQmid座机电话号码4idx1sn54f1fd69d799ca841ed1a1b8b座机电话号码scene21【数说·大数据圈】机器学习在生物大数据应用的一个例子到这里，其实并没有结束，最终找出来的若干基因易感位点（我们不妨称为易感SNP集合，每一个位点，简单理解为一个SNP吧），是一个集合，里面包含了可能不止一个易感位点。它们都是在统计意义上的显著，是有一定犯错概率的，也没有经过生物学的证实。本文要说的精细定位，就是要进一步缩减候选的基因易感位点，排除掉一些“假”的位点。精细定位，叫做fine-mapping。必备前提在做fine-mapping之前，有三个前提一定要具备：第一，区域中所有的common SNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。第二，已经做过严格的quality control。第三，大样本，确保提供足够的power。满足必备前提之后，我们进行fine-mapping，分成两部分，statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping，简单介绍一下统计方法在fine-mapping中的应用。statistical fine-mapping这一部分是本文的重点。在此步骤中，我们对GWAS中选出来的易感SNP集合进行统计分析，比较、排序其中SNP的重要次序，甚至删除掉一些不重要的SNP，缩小易感SNP集合的范围。大概有三种方法，一一列举如下：方法1：conditional regression我们在回归模型中，将最显著的那个SNP作为协变量进行控制，看其他SNP对疾病的影响是否还显著。选出P值最显著的几个易感SNP（P值通常要小于10的-8次方，因为要校正，所以视SNP的数量决定，参考?/s?__bizMjM5MDEzNDAyNQmid座机电话号码5idx1sncd914d2b1fddd66ca78f2f2f5e819233scene21浅议P值校正），缩小范围，精细定位。我们可以在plink中利用命令：plink -bfile mydata --linear --condition covariateSNP来实现。下面是一个例子， Fine mapping analysis of HLADP/DQ gene clusters on chromosome 6 reveals multiple susceptibility loci for HBV infection这篇文献中，作者想要看一下前人发现的，HLA-DP/DQ这两个基因簇与乙型肝炎（HBV）的显著关系，是否可以再具体定位到某个SNP或者block中。注：染色体、基因、block和SNP这四者大致是什么关系？（不专业的比喻，帮助理解一下，勿喷哈~）如果把SNP看做是一个具体的房子或者建筑物，那么block就是一片小区，基因大概就是一个城市，染色体差不多是一个省了。其中就使用到了conditional regression的方法垂直轴代表作为协变量的基因簇，水平轴代表需要detected的基因簇。白色代表显著，灰色代表不显著:HBV HLA-DP + （HLA-DQ + other covariates）HBV HLA-DQ + （HLA-DP + other covariates）从两个白色区域可以看出，HLA-DP和HLA-DQ都是显著的，因此，作者的第一个结论是：之前发现的HLA-DP和HLA-DQ两个基因簇对乙型肝炎的显著影响，是相互独立的。此外，作者又对HLA-DP上的三个block做了conditional regression：block 3位于HLA-DPA1，block 5位于HLA-DPB1，block 4位于HLA-DPA1和HLA-DPB1的overlap 区域。blocklocationblock 3in