基于压缩后缀数组的空间高效短读比对算法.doc

下载文档 降价啦

3
0
约6万字
约 81页
2019-05-13 发布于安徽
举报
版权申诉
保障服务

基于压缩后缀数组的空间高效短读比对算法.doc

1、本文档共81页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要新一代基因测序技术 (NGS) 的出现使得测序成本飞速下降，随之而来的是大量的短读序列需要更快速准确的比对程序来处理。第一代基于散列表技术的序列比对算法如 Bowtie 等能够快速准确的完成比对工作，但其不支持 gap 比对的特性使得在短读序列 (short reads) 过长导致 indel 出现频繁时，比对的精度也随之下降。另一方面，近年来压缩索引 (BWT,CSA,FM-index) 领域的相关研究使得在较小内存中索引人类基因组这样的大规模序列成为可能。这导致近年来出现了很多基于压缩索引的短读比对算法，如 BWA,Bowtie 等。本文提出了一种基于压缩后缀数组和后向搜索实现近似匹配的算法来实现短读比对，在比对时间和空间以及比对精度上都取得了很好的效果。基于压缩后缀数组的短读比对算法 (CSAA)，采用了压缩后缀数组来构建参考序列的索引，并使用后向搜索来做匹配。通过引入搜索树，CSAA 实现了近似匹配算法，从而支持完全的 gap 比对。此外 CSAA 在搜索树上使用了一种类似堆的优先堆数据结构，大大减小了搜索空间。而且每一次的搜索方向都能保证是最优的。最后结合罚分机制以及 dif f erence 距离，定义 seed 等方法，进一步降低搜索空间，提高了 CSAA 的比对速度和精度。 CSAA 的高效体现在三个方面。一是空间高效的索引方法；二是基于后向搜索的高效的近似匹配方法；三是seed 策略和多线程比对技术的利用。本文采用了增量法进行压缩后缀数组索引的构建，从而跳过后缀数组的构建，降低了对内存的需求。而在比对时，seed 的引入使得在比对短读的前几十个核苷酸就可以放弃大部分无效的搜索方向。多个短读比对的相互独立使得并行化成为可能，使得 CSAA 使用多线程时可以获得数倍的加速优势，从而可以根据计算机的 cpu 核数指定多个线程，以取得最优的比对速度。 CSAA 支持单端和双端序列比对，以 Fastq 格式输入，输出为标准的 SAM(Seq- uence Alignment Map) 格式。关键词：短读比对，序列比对，压缩索引，压缩后缀数组论文类型 : 应用基础研究 i 西安电子科技大学硕士研究生毕业论文 ii ABSTRACT ABSTRACT Nowadays,decreasing cost and better accessibility of next generation sequencing meth- ods have produced a large amount of short reads whic are calling for the development of fast and accurate read alignment programs.The ?rst generation of hash-table based meth- ods has been developed,including MAQ,which is accurate,feature rich and fast enough to align short reads from a single individual.However,Bowtie does not support gapped alignment of longer reads where indels may occur frequently.On the other hand,recent experimental studies on compressed index(BWT,CSA,FM-index)have con?rmed their practicality for indexing very long strings such as human genome in the main mem- ory,and many alignment methods based on compressed index have been developed,for example,BWA.In this paper we show how to build a software called CSAA that exploits a CSA index of reference sequence,and performs well on alignment speed and accuration. We proposed and implemented Compressed Suf?x Array Alignment(CSAA),a new short read alignment t