- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组组装
摘要
本文研究的是基因组碱基序列的拼接组装问题。由于新一代测序数据的准确性低,而且又加上海量的数据,导致初始reads中含有大量的错误碱基。
对于问题一:首先我们建立了Reads数据预处理模型,即在拼接之前对reads数据进行修正或消除初始reads中的碱基错误。我们把reads转化成定长的k-mer,建立debruijn图,把DNA拼接问题转为图论问题。选定k值后,将长度为L的reads拆成多个k-mer,并将这些k-mer用哈希表储存。最后我们将DNA的拼接问题转化成基于reads的contigs拼接模型和基于contigs的scaffolds组装模型。
对于contigs拼接模型:我们首先建立了决策表去发现debruijn图中的重叠关系,以扩展contigs的方式将拼接问题转化成了debruijn图中的欧拉路径问题。我们综合考虑决策表中reads累计拼接信息和数据的出错特征,设计合理的评分方法,选择最大得分的k-mer进行contig的扩展。而且以打分的形式选择最优后继k-mer对reads中因测序而产生的碱基错误进行纠错。完成后继k-mer的选择后更新决策表,并且分为两步:1、更新决策表中已有的reads,看当前k-mer是否出现在表中某reads的合适位置2、引进新的reads,由反向互补序列原则
知,只有当前k-mer出现在reads首尾时,该reads才能开始参与拼接。
对于scaffolds组装模型,我们以拼接模型生成的contig和配对reads的数据文件作为输入,通过配对reads确定contigs之间的相对位置。我们分别讨论了任意两条相邻contigs之间的四种位置情况,并解决了不同位置情况下如何根据配对reads之间的距离确定两个contigs的组装方式,最终生成长度更长的scaffolds。从而还原基因组。
对于问题二,我们将全长约为120,000个碱基对的细菌人工染色体BAC),
运用自己的算法和程序进行组装。最终得出了scaffolds序列
关键词:debruijn图 反向互补序列 决策表 contigs拼接 scaffolds组装
一、问题重述
1.1问题背景:
伴随着人类基因组计划的实施和突飞猛进,快速和准确地获取生物体的遗传信息对于生命科学研究意义越来越重要。基因组包含了整个生物体的遗传信息,基因组的DNA或RNA分子中碱基对的排列顺序决定了这些遗传信息。因此,生命科学领域的重要研究内容是:”获得目标基因组的序列信息,全面地揭示基因组的复杂性和多样性”。
测序(sequencing)即为确定基因组碱基对序列的过程。测序技术从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。但仍只能直接读取的碱基对序列长度远小于基因组序列长度,因此需将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息组装以组成更长的序列。
基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于OLC方法、贪婪图方法、de Bruijn图方法等。
1.2需要解决的问题:
问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。
问题二:现有一个全长约为120000个碱基对的细菌人工染色体(BAC),采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。
二、问题的分析
2.1问题一的分析:
2.1.2总体分析
由于新一代测序数据的准确度较低,又加上海量数据,导致初始reads中含有大量的错误碱基。为此我们建立了reads数据预处理模型,即在拼接之前对reads数据进行预处理,修正或消除初始reads中的碱基错误。新一代测序技术所得的reads长度较短,数量较多,不易发现reads之间的重叠关系,很难建立重叠图。故基于重叠图的算法不能够很好地解决问题。因此我们想要将read转化成定长的k-mer,然后寻找k-mer之间的重叠关系。通过建立de bruijn图,把DNA拼接问题转为图论问题。基于de bruijn图的算法首先要创建de bruijn图。此时要设定的一个重要参数是k-mer长度。选定k值后,要将长度为L的read拆成多个k-mer,并将这些k-mer用哈希表存储,以备以后频繁地查找使用。由于DNA的拼接问题很复杂,所以直接通过rea
文档评论(0)