- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
Classified Index: TP39 U.D.C: 004.9
Dissertation for the Master Degree in Science
ON FAST LONG GENOMIC SEQUENCE ALIGNMENT
Candidate:
Gao Yan
Supervisor:
Prof. Wang Yadong
Academic Degree Applied for:
Master of Engineering
Speciality:
Computer Engineering
Affiliation:
School of Computer
Science
and
Engineering
Date of Defence: June, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
摘
摘 要
摘 要
随着新一代测序技术的不断发展以及基因组拼接方法的不断成熟,生物信息 领域产生了越来越多的长基因组序列数据(测序数据和拼接片段),其中太平洋生 物科技公司(PacBio)的单分子测序实时测序技术(Single-Molecule real-time, SMRT)更是将测序片段的平均长度增加到了接近 10 000bp。这些长基因组序列数 据的产生对于生物信息领域的很多问题都将具有非常重要的研究价值,其中就包 括结构变异检测等相关领域问题。基于长序列数据进行结构变异检测的直接方法 就是对长序列数据进行序列比对,将长序列映射到参考基因组上,通过对所得到 的比对结果进行分析,便可以得长序列中所包含的结构变异信息。然而,现有的 长序列比对工具在处理包含大型结构变异数据时,其运行速度以及比对效果都存 在着各式各样的缺陷,因此开发一款能够处理大型结构变异同时高效、精确的长 序列比对工具是一项非常迫切并且有意义的工作。
本文提出了一个新型的长序列快速比对工具 LSAT。LSAT 针对长基因组序列 片段以及染色体结构变异的生物学特点,采用了一些在处理长序列比对时具有明 显优势的比对策略,包括选种阶段的无交叠的长种子选取策略以及在种子筛选阶 段采用的对于结构变异检测具有更高敏感性的最优覆盖连接模式,同时通过采用 序列拆分比对的方法来获得结构变异的精确边界位置。实验结果表明,LSAT 与现 有的比对工具包括 BWA-SW、YAHA 等相比具有速度上的明显优势,同时在对于 结构变异的检测方面,也显示出了更高的敏感性和准确性。
关键词:长序列;比对;结构变异;拆分比对
-I-
Ab
Abstract
Abstract
With the continuous development of the next generation of sequencing(NGS) technology and genome assemble method, more and more long genome sequence data(sequencing data and assemble fragment) are generated in bioinformatics field. The single-molecule real-time (SMRT) sequencing technology of PacBio has already increased the average length of sequencing read to nearly 10 000 bp. Those long genome sequence data has very import research value to a lot of problems in the bioinformatics field, like detection of structural variation, etc. To detect structural variation based on those long sequence data, we can directly alignment these data to the reference genome. Then, by comparing and analyzing the split alignment result, we can obtain the structural variation information contained in the long sequence data. However, the exi
您可能关注的文档
- 面向机会网络的人类移动轨迹特征分析方法的研究-计算机技术专业毕业论文.docx
- 旅游目的地网络营销的研究-企业管理专业毕业论文.docx
- 慢病毒介导BMPRⅡ基因沉默对人肝癌移植瘤生长的影响-肿瘤学专业毕业论文.docx
- 民机驾驶舱人为差错及工作负荷评价方法研究-安全科学与工程专业毕业论文.docx
- 面向区县的科技项目管理信息系统的设计与实现-软件工程专业毕业论文.docx
- 煤炭企业“三跨”整合路径选择及其绩效研究:政府规制视角-会计学专业毕业论文.docx
- 煤转油战略分析-工业工程专业毕业论文.docx
- 秘密共享中理想的存取结构及秘密共享实施方案的研究-信息安全专业毕业论文.docx
- 罗山县农村土地流转模式与绩效评价研究-公共管理专业毕业论文.docx
- 镁铜锌铁氧体的制备、结构和性能的研究-材料物理与化学专业毕业论文.docx
- 考虑注水井影响的多井系统生产数据分析方法研究-油气田开发工程专业毕业论文.docx
- 科技论文社区的研究及其应用-计算机软件与理论专业毕业论文.docx
- 矩阵整流器的相关问题的研究-电气工程专业毕业论文.docx
- 抗污染聚偏氟乙烯微滤膜的制备及其性能研究-化学工艺专业毕业论文.docx
- 绿色建筑评估研究-工商管理专业毕业论文.docx
- 面向可适应性的产品族配置方法及应用研究-机械设计及理论专业毕业论文.docx
- 面向订单式生产企业物料需求计划子系统的设计与实现-软件工程专业毕业论文.docx
- 脉冲强光对室内空气品质影响的研究-供热、供燃气、通风及空调工程专业毕业论文.docx
- 控制和降低税收征管成本的对策分析-财政学专业毕业论文.docx
- 绝对音高者音乐加工能力的研究-音乐与舞蹈学专业毕业论文.docx
文档评论(0)