- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于大规模并行全基因组测序的单核苷酸多态性检测方法.doc
一种基于大规模并行全基因组测序的单核苷酸多态性检测方法
技术领域
本发明涉及一种基于新一代大规模并行全基因组测序的单核苷酸多态性的检测方法,属基因工程技术领域。
背景技术
遗传突变影响着生物体表型的变异,罹患疾病的风险,对药物和环境刺激的反应。全基因组连锁分析和定点克隆技术对受单基因影响的孟德尔遗传病的研究已经取得了巨大的成功。然而,绝大多数常见疾病,如糖尿病,心血管疾病和癌症等重要的数量性状具有复杂的遗传学基础,由多个基因以及基因与环境因素之间的相互作用共同决定。连锁分析在检测对疾病的影响近于中性的遗传变异时具有极大的局限性。相对于连锁分析和定点克隆来说,全基因组关联性分析能够为疾病关联基因位点定位提供一个更好的方法。人类基因组序列的测序完成,使得数以百万计的单核苷酸多态性位点得以鉴定,构建了高密度的单倍体型基因组变异图谱。这些研究进展开创了使用大规模全基因组的单核苷酸多态性检测技术来寻找引起各种人类疾病或与之相关的基因变异的时代。二十多年以来,Sanger法测序和荧光电泳技术一直在DNA测序领域占据着主导地位,使用随机鸟枪法策略或目标区域的PCR扩增法进行了大量的SNP检测。现有dbSNP数据库中的大多数SNP位点都是通过这些方法鉴定的。鸟枪法测序进行SNP检测的标准方法是将测序片段与基因组参考序列进行比对,并根据碱基的质量打分来过滤掉低质量的测序错误,得到较为可信的SNP结果。使用来自二倍体样本的PCR扩增序列进行直接测序,再通过对色谱图进行分析,检测出杂合的多态性位点,也是常见的方法,主要软件有SNPdetector,novoSNP,PolyPhred以及PolyScan。
与传统的毛细管电泳法测序相比,新一代测序技术如Illumina Genome Analyzer (GA), AB SOLiD,以及Roche 454 FLX系统显着地提高了测序通量,极大地降低了成本。Illumina GA一次运行可以产生约四千万条长度为50bp的测序片段。这种超高的测序通量使得新一代的测序技术特别适合于在已知参考基因组序列的基础上进行大规模个体的重测序从而进行基因变异的研究。截至当前,使用新的测序技术已经完成了两个人的基因组测序:James Watson的个人基因组测序(Roche 454FLX)和第一个亚洲人的基因组测序(Illumina GA)。此外,国际千人基因组计划执行委员会也决定使用这种测序技术对来自全世界的1000个个体基因组进行测序,得到最详细的人类基因组变异图谱。
随着新的测序技术的发展,相应的SNP检测方法也有了很好的发展;然而,由于新测序技术产生的测序片段与以往相比有显著的差异,新的精确的SNP检测方法也亟待开发。
发明内容
本发明的目的是提出了一种适应于大规模平行测序法Illumina GA技术特点的构建待测基因组一致序列和检测SNP的新方法。在分析了Illumina GA测序数据的错误特征以后,解决了由于测序过程和数据处理过程中实际问题所造成的一致序列不准确及SNP不准确等问题,从而为采用新一代测序技术进行高效、快速、准确的全基因组测序分析提供了可靠的手段。
本发明提出的一致序列构建方法和SNP检出方法,包括以下步骤:
(1)将测序数据比对到参考基因组上。
使用短序列比对程序SOAP() 将Illumina GA的测序片段比对到参考基因组序列上。
(2)对所有唯一比对上的测序片段进行统计
通过对SOAP程序结果的文本处理,统计特定测序质量值和特定测序序列坐标下,每两种碱基之间的错配比例,将此比例作为对错配概率的估计,记录在一个四维概率矩阵里面,作为统计学模型中各项参数的基础。
(3)判别基因组上每个碱基的基因型
对于基因组上每一个位点,将比对在此位点上所有的测序片段碱基收集起来,记录其碱基类型、测序质量和在测序片段上的序列坐标,从四维概率矩阵中查出四种碱基观察到测序碱基的概率。对于二倍体基因组而言,其真实基因型的可能性共有10种(纯合基因型4种:AA、CC、GG、TT;杂合基因型6种:AC、AG、AT、CG、CT、GT)。从每一种真实基因型观察到覆盖该位点的所有碱基的概率,为观察到每一个单独碱基的概率之积,而后者是可以从步骤(2)中建立的概率矩阵中查到的。这样,我们就得到了每一种潜在可能的基因型得到此位点的观察碱基的似然概率(likelihood)。考虑参考基因组的碱基类型和已知多态性位点的信息,我们可以为每一个潜在的基因型赋予一个先验概率,与likelihood结合,得到后验概率。后验概率最高的基因型则为此基因组位点最有可能正确的基因型,即一致序列基因型。该基因型正确的概率,为其后验概率在所有10个基因型后验概率之和中所占的比例。我们将对基因型估计的正确率转换为一个质量分数。
(4)鉴定单核甘酸多态性位
您可能关注的文档
- 一个小山村的故事.ppt
- 一二自由放任与罗斯福新政修改.ppt
- 一位北大CCER研究生的学习感悟.doc
- 一体化管理体系实施要点.ppt
- 一元一次方程应用专题储蓄问题(成都市东湖中学).ppt
- 一分钟的价值.ppt
- 一动物细胞融合和单抗.ppt
- 一基本概念.ppt
- 一带一路”与广西“双核驱动”发展战略试题答案(套).doc
- 一年级地方课上册教案.doc
- 2025年山东省青岛市选调生考试(公共基础知识)综合能力测试题汇编.docx
- 乳胶色浆项目投资风险评估报告.docx
- 2025年山东省青岛市事业单位招聘考试(职业能力倾向测验)题库及参考答案1套.docx
- 2025年山东省青岛市事业单位招聘考试(职业能力倾向测验)题库完美版.docx
- 2025年山东省青岛市事业单位招聘考试(职业能力倾向测验)题库完美版.docx
- 2025年山东省青岛市单招职业倾向性测试题库1套.docx
- 2025年山东省青岛市事业单位招聘考试(职业能力倾向测验)题库必考题.docx
- 2025年山东省青岛市事业单位招聘考试(职业能力倾向测验)题库必考题.docx
- 2025年山东省青岛市事业单位招聘考试(职业能力倾向测验)题库1套.docx
- 2025年山东省菏泽地区选调生考试(行政职业能力测验)综合能力题库审定版.docx
文档评论(0)