基因组组装数学建模详解.docVIP

下载本文档

50
0
约1.51万字
约 23页
2016-05-25 发布于湖北
举报
版权申诉

基因组组装数学建模详解.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基因组组装摘要基因组组装是生物信息学的核心，有着极其重要的应用价值。本文针对提高基因组组装问题的不同途径和规模，利用了图论中的De Bruijn图法和欧拉路径问题的思想建立模型，并对传统De Bruijn图模型中存在的一些问题（如overlap部分判定速度较慢、内存占用大等）建立了相应模型进行改进，利用所建模型对附录中给出的reads进行了组装，并对原文件中错误和低质量的reads进行了筛选，提高了原始数据的质量，对问题进行了拓展。首先，在模型的建立方面，我们利用了图论中de Bruijn图法和欧拉路径问题的思想并结合实际，建立了基因组序列组装模型，基于de Bruijn图法的模型不仅避免了使用OLC方法组装第二代基因测序技术所产生的高通量、短序列、高覆盖的基因组易产生错误、运行较慢的弊端，并且还可以减少冗余数据量，提高了内存效率。其次，在模型的优化改进方面，我们通过建立基于De Bruijn sequence的碱基序列替换改进模型和k值选择模型对传统De Bruijn 图模型进行了改进，很好的解决了原有模型存在的overlap比对速度慢、不同k取值导致资源占用不同等问题，提高了基因组组装过程中的时间效率和容错率。最后，在对于原始reads数据的处理方面，我们利用了Hash算法的思想，对每条建立值（sequencing）图2.1 大量overlap导致read拼接错误的示意图如果将读段切成更短的 k-mers ，单个 k-mers 上出错的概率就会大大减小。与OLC 组装算法不同，De Bruijn 图算法不再以 read 为单位组织数据，而是以 k-mers 为单位进行数据组装，但把读段切成更小的 k-mers 却能够更好地处理测序错误，以实现精确拼接。其优点主要有以下3个方面： (1)以 k-mers 为单位进行序列组装，不影响图中节点的质量，同时减少了冗余数据量。 (2)在图中重复区域只出现一次，便于识别，避免错误组装，减小出错率。 (3)采取将有重叠区域映射到同一条弧上的策略，从而简化了搜索路径。综上所述，在建模过程中我们没有使用基于OLC（Overlap/Layout/Consensus）的Hamilton图方法而是选择了对于新一代基因测序技术所产生的基因组组装效果更好的基于 k-mers 和De Bruijn 图的欧拉图问题。并对传统De Bruijn图模型中存在的一些问题（如overlap部分判定速度较慢、内存占用大等）进行了改进。模型假设假设题目中所给的read1都是正向排列的假设每条read都有与之配对的碱基序列假设基因组每个位置被测到的次数是均匀的假设不考虑基因的缺失、重复、倒位、易位符号说明及名词定义 4.1符号说明符号说明 k k-mers的长度 v 一些基因组序列在v中k-mers的种类 w v中某一长度为k 的基因组序列 w在v中出现的次数在v中所有k-mers种类的集合 4.2名词定义 k-mers：在组装前将reads切分为长度为 k 的子串，称为k-mers。 De Bruijn sequence:是一种由 k 种不同符号组成，且其所有长度为 n 的连续子序列恰为 k 种符号组成的长度为 n 的所有排列的序列。 Contig：是由reads拼接生成的长序列片段。 De Bruijn 图：是一种可以表示符号序列之间的重叠区域的有向图。 Overlap：测序得出的基因组序列的重叠区域。模型的建立 5.1基于De Bruijn 图和Euler路径的基因组序列组装模型基因组序列组装所使用的算法决定了可以拼接的基因组序列片段长度、拼接基因组序列所需要的时间和内存，所以选择一个好的算法对于基因组序列的拼接有着至关重要的作用。而第二代测序数据的基因组组装由于真实基因组的复杂结构，比如一些重复序列的大量存在和新的测序方法本身所固有的特点，比如reads较第一代更短、存在一些测序错误等原因，使得原本在第一代Sanger 测序法组装效果很好的OLC（Overlap/Layout/Consensus）方法不能再继续适用。而对于第二代测序产生的DNA和RNA序列，De Bruijn 图的应用则显得越来越重要。 De Bruijn 图算法的具体过程如下：在reads组装前将其切分为长度为k的子串，称为k-mers，如图5.1。如果存在 read,使得两个 k-mers 相邻且重叠 k?1 个字符,那么两个 k-mers 之间存在一条有向边。因此每个read被映射成De Bruijn图中的一条路径。基因组序列组装问题就变成了在 De Bruijn 图中寻找一条包含所有 read 的路径问题，即求解在De Bruijn 图中没有分支的最大路径，如图5