- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计方法在生物信息学“精细定位”(fine-mapping)中的应用
【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下:我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。携带某种基因易感位点的人,就会有很大概率换上某种疾病。我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS分析的思想如下:原文请戳这里:?/s?__bizMjM5MDEzNDAyNQmid座机电话号码4idx1sn54f1fd69d799ca841ed1a1b8b座机电话号码scene21【数说·大数据圈】机器学习在生物大数据应用的一个例子到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称为易感SNP集合,每一个位点,简单理解为一个SNP吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定犯错概率的,也没有经过生物学的证实。本文要说的精细定位,就是要进一步缩减候选的基因易感位点,排除掉一些“假”的位点。精细定位,叫做fine-mapping。必备前提在做fine-mapping之前,有三个前提一定要具备:第一,区域中所有的common SNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。第二,已经做过严格的quality control。第三,大样本,确保提供足够的power。满 足必备前提之后,我们进行fine-mapping,分成两部分,statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping,简单介绍一下统计方法在fine-mapping中的应用。statistical fine-mapping这一部分是本文的重点。在此步骤中,我们对GWAS中选出来的易感SNP集合进行统计分析,比较、排序其中SNP的重要次序,甚至删除掉一些不重要的SNP,缩小易感SNP集合的范围。大概有三种方法,一一列举如下:方法1:conditional regression我们在回归模型中,将最显著的那个SNP作为协变量进行控制,看其他SNP对疾病的影响是否还显著。选出P值最显著的几个易感SNP(P值通常要小于10的-8次方,因为要校正,所以视SNP的数量决定,参考?/s?__bizMjM5MDEzNDAyNQmid座机电话号码5idx1sncd914d2b1fddd66ca78f2f2f5e819233scene21浅议P值校正),缩小范围,精细定位。我们可以在plink中利用命令:plink -bfile mydata --linear --condition covariateSNP来实现。下面是一个例子, Fine mapping analysis of HLADP/DQ gene clusters on chromosome 6 reveals multiple susceptibility loci for HBV infection这篇文献中,作者想要看一下前人发现的,HLA-DP/DQ这两个基因簇与乙型肝炎(HBV)的显著关系,是否可以再具体定位到某个SNP或者block中。注:染色体、基因、block和SNP这四者大致是什么关系?(不专业的比喻,帮助理解一下,勿喷哈~)如果把SNP看做是一个具体的房子或者建筑物,那么block就是一片小区,基因大概就是一个城市,染色体差不多是一个省了。其中就使用到了conditional regression的方法垂直轴代表作为协变量的基因簇,水平轴代表需要detected的基因簇。白色代表显著,灰色代表不显著:HBV HLA-DP + (HLA-DQ + other covariates)HBV HLA-DQ + (HLA-DP + other covariates)从两个白色区域可以看出,HLA-DP和HLA-DQ都是显著的,因此,作者的第一个结论是:之前发现的HLA-DP和HLA-DQ两个基因簇对乙型肝炎的显著影响,是相互独立的。此外,作者又对HLA-DP上的三个block做了conditional regression:block 3位于HLA-DPA1,block 5位于HLA-DPB1,block 4位于HLA-DPA1和HLA-DPB1的overlap 区域。blocklocationblock 3in
您可能关注的文档
- 立交桥道路施工方案.doc
- 立体几何初步知识点+练习题2.doc
- 笔记2社会心理学.doc
- 竞技网球发展格局及其原因探析.doc
- 窒息复苏考试试题.doc
- 移动通信GSM实验报告.doc
- 第07讲空间中的垂直关系(讲义).doc
- 第3章基因的本质第2节DNA分子的结构.doc
- 第7章第2节人体的呼吸1.doc
- 第7周集体备课中心发言人稿.doc
- 国开景区管理作业2试题及答案.pdf
- 国开景区管理作业1-4试题及答案.pdf
- 河南开放大学本科《地域文化(本)》作业练习1-3试题及答案.pdf
- 2024年大型游乐设施操作证考试题库及答案很全.pdf
- 2024年门座式起重机司机考试题库及答案.pdf
- 2022-2023学年河北省衡水市武强中学高二(下)期末数学试卷【答案版】.docx
- 2022-2023学年河北省保定市崇德实验中学高二(下)期末数学试卷【答案版】.docx
- 江西省2017年中小学教师招聘考试高中化学试卷及答案.docx
- 2024年河北省八年级中考生物真题(解析版).docx
- 2024年南阳市社会保险中心(唐河县企业养老保险分中心)(参公)一级科员招录1人《行政职业能力测验》高频考点、难点(答案详解版).docx
文档评论(0)