基因组组装精讲.docVIP

下载本文档

152
0
约9.48千字
约 18页
2017-05-08 发布于湖北
举报
版权申诉

基因组组装精讲.doc

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

封一答卷编号（参赛学校填写）：答卷编号（竞赛组委会填写）：论文题目：（标明A、B、C、D之一） B 组别：(填写研究生、本科生、专科生或中学生) 本科生参赛队员信息(必填)：姓名学号联系电话参赛队员1 徐小军 201236240018 参赛队员2 吴文文 201234350109 参赛队员3 徐兆深 201223271090 参赛学校：哈尔滨商业大学封二答卷编号（参赛学校填写）：答卷编号（竞赛组委会填写）：评阅情况（学校评阅专家填写）：学校评阅1. 学校评阅2. 学校评阅3. 评阅情况（联赛评阅专家填写）：联赛评阅1. 联赛评阅2. 联赛评阅3. 基因组组装摘要传统基因组装算法的有一定的局限性，针对这种现状，本文提出了一种新的DNA组装算法，跳出传统的基于图论的框架，采用新的理论模式提出新的算法，其实质是将拼接问题抽象成为数学模型，采用HiTEC碱基修正方法、从头测序的后缀数组索引算法去优化算法，本文的组装思路分为三步，首先是对测序序列的碱基进行HiTEC算法修正，然后任意取一条 read，然后从 read 库中搜寻与该read有重叠的所有read，对这些有重叠的read做出评价，找出一个最优的read。那么找到的这条 read 的与初始那条 read 的不重叠的部分就是 contig（基于 reads 之间的重叠区，拼接获得的序列）拼接新增加的部分，就可以不断加长 contig 的长度。最后通过对contig的定位、contig修正、末端延伸法填补gap（contig之间的间隙），按照此方法就可以不断加长 contig 的长度，实现拼接的目的。本文研究的基于后缀数组从头测序算法将细菌人工染色体OLC方法、贪婪图方法、de Bruijn图方法的拼接软件所导致的拼接错误开辟了新的途径，从提速和提高拼接质量两方面显著地改进了算法性能。关键词：HiTEC碱基修正；从头测序；后缀数组；末端延伸法填补gap 1 问题重述快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说，基因组包含了整个生物体的遗传信息，这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息，进而比较全面地揭示基因组的复杂性和多样性，成为生命科学领域的重要研究内容。确定基因组碱基对序列的过程称为测序（sequencing）。测序技术始于20世纪70年代，伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代，以及近年来正在兴起的第三代，测序技术正向着高通量、低成本的方向发展。尽管如此，目前能直接读取的碱基对序列长度远小于基因组序列长度，因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是，将基因组复制若干份，无规律地分断成短片段后进行测序，然后寻找测得的不同短片段序列之间的重合部分，并利用这些信息进行组装。例如，若有两个短片段序列分别为 ATACCTTGCTAGCGT GCTAGCGTAGGTCTGA 则有可能基因组序列中包含有ATACCTTGCTAGCGTAGGTCTGA这一段。当然，由于技术的限制和实际情况的复杂性，最终组装得到的序列与真实基因组序列之间仍可能存在差异，甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的（多条）序列长度尽可能长；完整性要求组装序列的总长度占基因组序列长度的比例尽可能大；准确性要求组装序列与真实序列尽可能符合。利用现有的测序技术，可按一定的测序策略获得长度约为50–100个碱基对的序列，称为读长（reads）。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组，这些软件的核心是某个组装算法。常用的组装算法主要基于OLC（Overlap/Layout/Consensus）方法、贪婪图方法、de Bruijn图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通