- 10
- 0
- 约2.35万字
- 约 26页
- 2017-02-01 发布于北京
- 举报
PAGE \* MERGEFORMAT 26
基因组组装
摘要
快速和准确地获取生物体的遗传信息对生命科学研究具有重要的意义。本文建立了基因组组装的数学模型及算法,解决了基因组的组装问题。如何在保证组装序列的连续性、完整性和准确性的同时,设计出耗时短、内存小的组装算法是本文的关键。
针对问题一,本文主要是对重叠群(congtig)拼接问题进行了数学模型的建立,设计出一种新的重叠群(congtig)生成算法。该算法基于de?Bruijn图,将从多头测序转化为de?Bruijn图的欧拉路径问题,并采用启发式搜索,能快速的处理大量测序数据,而且能得到质量较高的重叠群,提高了基因组组装的准确性。
针对问题二,由于数据量庞大,所以本文先对原始数据进行分析与处理。首先对原始数据中重复片段进行过滤;另外,通过对原始数据中质量序列进行分析和研究,剔除质量偏差较大错误数据,使有效的读长进一步减少。其次,利用问题一的de?Bruijn图法对读长(read)进行拼接;最后,本文依据组装序列的连续性、完整性和准确性对组装效果进行评价,得到组装序列的匹配度和准确度都较高,达到较为理想的组装效果。
关键词:基因组组装 ? de?Bruijn图 ?? congtig拼接 贪婪图方法 启发式搜索
一 问题重述
快速和准确的获取生物体的遗传信息对生命科学研究具有重要意义。随着测序技术的不断发展,新一代
原创力文档

文档评论(0)