面向基因组重测序的BWT索引压缩算法-计算机科学与技术专业毕业论文.docxVIP

  • 10
  • 0
  • 约5.42万字
  • 约 62页
  • 2019-05-08 发布于上海
  • 举报

面向基因组重测序的BWT索引压缩算法-计算机科学与技术专业毕业论文.docx

Classified Index: TP31 U.D.C: 004 Dissertation for the Master Degree in Engineering COMPRESSION ALGORITHM OF BURROWS-WHEELER TRANSFORM INDEX FACED TO GENOME RE-SEQUENCING Candidate: Xiong Wenlin Supervisor: Prof. Wang Yadong Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2011 Degree-Conferring-Institution: Harbin Institute of Technology 摘 摘 要 - - I - 摘 要 随着新一代高通量测序技术的出现,DNA 测序技术已成为研究生命科学领 域的重要手段,而新一代测序技术产生的读取数据长度较短,并且数据通量非 常巨大,这给生物信息学带来了新的机遇和挑战。其中对于这些数据的分析算 法的研究面临着巨大的挑战,特别是序列比对算法和数据存储算法。目前,随 着新一代测序技术的不断普及,基因组重测序的序列比对程序(如 MAQ、 mrFast、SOAP 等)越来越多,而且它们采用的结构也不断完善,性能上越来越 好。这其中包括哈希表,后缀数组,后缀树等结构,而最近几年出现了使用压 缩模型 Burrows-Wheeler 变换。由于其空间占有量非常小,而且在查找匹配方 面能够实现块搜索,从而大大提高了拼接算法的时间和空间利用率。这使得全 基因组序列比对软件在个人计算机上运行成为了可能,并给非专业研究人员带 来了研究生物学众多问题的机遇。 本文面向新一代测序数据,在人类全基因组上利用 BWT 变换,在保证整 个 reads 映射过程的拼接速度不变的情况下,提出了 BWT 索引压缩方法,构建 了一个新的 BWT 索引结构。利用该结构构建一个 reads 映射系统,该系统实现 了 reads 数据快速映射到人类参考基因组序列上。其中通过构建检查点结构信息 来快速查找映射对应关系,通过构建位置信息来快速返回读取数据的拼接位点。 由于 BWT 后缀序列在 BWT 索引中占据大量空间,而对于 BWT 后缀序列的压 缩存储直接影响了整个 reads 映射过程的拼接速度。考虑到 BWT 后缀序列结构 中碱基分布不均匀,碱基序列重复度比较高,为了提高整个 reads 映射过程的内 存利用率,设计并实现了几种后缀序列压缩算法。利用这些压缩算法,特别是 BWT 再变换,使得碱基序列集中在一起,从而提高了整个索引结构的压缩比率。 最后,通过采用 reads 的模拟数据和真实数据,对于这些索引压缩算法进行 测试分析。结果发现整个映射过程的拼接速度基本没有改变,而索引结构空间 大大减小到 850MB 左右。虽然压缩算法的压缩比率不是很高,但是对于索引结 构的压缩还是非常有必要的。 关键词:新一代测序技术;Burrows-Wheeler 变换;reads 映射;索引结构压缩 Abs Abstract - - II - Abstract With the advent of high-throughput sequencing technologies, DNA sequencing technologies have become important means for the research in the field of life sciences. But the short and massive read data brought new opportunities and challenges to the bioinformatics, which was produced by next-generation sequencing technologies. For the algorithms of these data analysis, they also present substantial huge challenges, especially the mapping algorithm of sequence reads to the genomes, the data storage algorithm. With the populariz

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档