基因组组装算法究(已审核).docxVIP

下载本文档

9
0
约1.53万字
约 20页
2018-10-13 发布于江苏
举报
版权申诉

基因组组装算法究(已审核).docx

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基因组组装算法究(已审核)

基因组组装算法研究摘要基因组测序是生物信息学的核心，有着极其重要的应用价值。近些年来，新的测序技术大量涌现，与传统的Sanger方法相比，这些方法产生的read(由测序仪直接测得的 DNA 片段)长度更短，数量更多，覆盖率更大。然而，传统的拼接算法并不适用于利用短 read 进行拼接，新的拼接算法在拼接效果上仍有待提高。本文首先介绍了传统的基因组拼接所用的贪婪算法和overlap-layout-consensus 算法，这两种算法仅适用用于第一代测序技术所得的reads,并不适用于第二代基因测序。对于第二代测序技术所得的reads,可以建立de bruijn 图算法的数学模型，然后编写程序，组装基因片段。利用第二代测序技术可以在一次实验中获得高通量短 read，然而第二代测序技术并不完美，由于在测序前要通过 PCR 手段对待测片段进行扩增，因此增加了测序的错误率。因此，本文利用HiTEC纠错算法对de bruijn 图算法进行优化。另外，本文还利用了基于概率模型的基因组从头测序算法克服了原有拼接算法过度依赖碱基片段之间重叠信息的缺陷，创造性地将 DNA 拼接过程抽象为二阶离散马尔可夫过程，与此同时，每一条碱基片段被抽象为系统中的一个状态。关键词：贪婪算法，OLC算法，de bruijn 图算法，HiTEC纠错算法一、问题重述遗传信息是生物遗传与进化的主要研究依据。能否快速和准确地获取生物体的遗传信息对于生命科学研是否有重大发现具有重要意义。对每个生物体来说，基因组包含了整个生物体的遗传信息，这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息，进而比较全面地揭示基因组的复杂性和多样性，成为生命科学领域的重要研究内容。确定基因组碱基对序列的过程称为测序。测序技术始于20世纪70年代，伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代，以及近年来正在兴起的第三代，测序技术正向着高通量、低成本的方向发展。现有的测序技术中，可按一定的测序策略获得长度约为50–100个碱基对的序列，称为读长（reads）。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组，这些软件的核心是某个组装算法。常用的组装算法主要基于OLC（Overlap/Layout/Consensus）方法、贪婪图方法、de Bruijn图方法等尽管如此，目前能直接读取的碱基对序列长度远小于基因组序列长度，因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点，现有算法的性能还有较大的改善空间。本题要求我们尝试建立模型，由程序计算得到基因组的长须组装。算法与程序要求能有效地解决在测序过程中出现的碱基对识别错误，或则基因中出现重复片段的情况。将所建立的模型检查运行后，本题要求我们进一步对其进行探究。针对一个全长约为120,000个碱基对的细菌人工染色体（BAC），采用Hiseq2000测序仪进行测序，结合附录中的测序策略、数据格式以及读长数据，在测序长度约为70×的情况下，对上述所建立的模型与算法程序进行组装验算。二、问题分析本题是基于新一代测序技术的基因组装算法问题，要求设计算法针对性的解决新一代测序技术带来的一些弊端。 2.1 read长度较短，数量较多——de bruijn图新一代测序技术所得的read长度较短，数量较多，不易发现read之间的重叠关系。可以将read转化成定长的k-mer，然后寻找k-mer之间的重叠关系。然后建立de bruijn图，把短序列拼接问题转化为de bruijn图中的欧拉路径问题。 2.2 个别碱基对识别错误——多重对比纠错通过将多个read放在一起比对来发现错误，如图1所示。图中通过途中4条read比对，可发现read3中的一个碱基错误（read3的第五个碱基）图图 SEQ 图 \* ARABIC 1 4条read对比图 read1 AACA TGCA TGCT TGAC …… reda2 TGCA TGCT TGAC ACAG …… read3 TGCT CGAC ACAG CGTT …… read4 TGAC ACAG CGTT …… 2.3基因组中存在大量重复片段重复片段可能导致拼接错误，或者导致不连续的较短contig出现。重叠片段类型主要有以下几种