面向长基因组序列片段的快速比对算法研究-计算机技术专业毕业论文.docxVIP

下载本文档

0
0
约5.75万字
约 62页
2019-05-18 发布于上海
举报
版权申诉

面向长基因组序列片段的快速比对算法研究-计算机技术专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据 Classified Index: TP39 U.D.C: 004.9 Dissertation for the Master Degree in Science ON FAST LONG GENOMIC SEQUENCE ALIGNMENT Candidate： Gao Yan Supervisor： Prof. Wang Yadong Academic Degree Applied for： Master of Engineering Speciality： Computer Engineering Affiliation： School of Computer Science and Engineering Date of Defence： June， 2014 Degree-Conferring-Institution： Harbin Institute of Technology 摘摘要摘要随着新一代测序技术的不断发展以及基因组拼接方法的不断成熟，生物信息领域产生了越来越多的长基因组序列数据（测序数据和拼接片段），其中太平洋生物科技公司（PacBio）的单分子测序实时测序技术（Single-Molecule real-time， SMRT）更是将测序片段的平均长度增加到了接近 10 000bp。这些长基因组序列数据的产生对于生物信息领域的很多问题都将具有非常重要的研究价值，其中就包括结构变异检测等相关领域问题。基于长序列数据进行结构变异检测的直接方法就是对长序列数据进行序列比对，将长序列映射到参考基因组上，通过对所得到的比对结果进行分析，便可以得长序列中所包含的结构变异信息。然而，现有的长序列比对工具在处理包含大型结构变异数据时，其运行速度以及比对效果都存在着各式各样的缺陷，因此开发一款能够处理大型结构变异同时高效、精确的长序列比对工具是一项非常迫切并且有意义的工作。本文提出了一个新型的长序列快速比对工具 LSAT。LSAT 针对长基因组序列片段以及染色体结构变异的生物学特点，采用了一些在处理长序列比对时具有明显优势的比对策略，包括选种阶段的无交叠的长种子选取策略以及在种子筛选阶段采用的对于结构变异检测具有更高敏感性的最优覆盖连接模式，同时通过采用序列拆分比对的方法来获得结构变异的精确边界位置。实验结果表明，LSAT 与现有的比对工具包括 BWA-SW、YAHA 等相比具有速度上的明显优势，同时在对于结构变异的检测方面，也显示出了更高的敏感性和准确性。关键词：长序列；比对；结构变异；拆分比对 -I- Ab Abstract Abstract With the continuous development of the next generation of sequencing(NGS) technology and genome assemble method, more and more long genome sequence data(sequencing data and assemble fragment) are generated in bioinformatics field. The single-molecule real-time (SMRT) sequencing technology of PacBio has already increased the average length of sequencing read to nearly 10 000 bp. Those long genome sequence data has very import research value to a lot of problems in the bioinformatics field, like detection of structural variation, etc. To detect structural variation based on those long sequence data, we can directly alignment these data to the reference genome. Then, by comparing and analyzing the split alignment result, we can obtain the structural variation information contained in the long sequence data. However, the exi