基于reads引导的基因组序列拼接算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于reads引导的基因组序列拼接算法.doc

基于reads引导的基因组序列拼接算法   摘 要:针对新一代测序技术数据读取片段reads长度短、准确度低、数据海量等特点,本文提出了基于reads引导的基因序列拼接算法(SRGA),以整条reads为拼接单位,并首次提出了基于数据特征和拼接信息累计的评分机制。选取常用测试集,将本文中的算法与序列拼接领域中的经典算法进行对比和分析,取得了较好的效果。   关键词:生物信息学;新一代测序技术;基因组序列拼接   中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2015)03-   GENOME ASSEMBLY GUIDED BY READS   ZENG Peilong   (China Ship Development and Design Center, WuHan 430064,China)   Abstract:Due to next generation sequencing data of mass, short length and relatively low precision, this paper proposes a new genome assembly guided by reads, regarding one entire reads sequences as assembly unit. This algorithm firstly invents a scoring mechanism based on accumulated assembly information and data charactistics. Then the paper gives the metrics results of several algorithms on the test set, the proposed (SRGA) and several classical algorithm of genome assembly. Experimental results show SRGA can obtain satisfactory stereo matching results.   Key words:Bioinformatics, Next-generation Sequencing, Genome Assembly   0 引 言   新一代测序技术促进了生命科学的快速发展,但其产生的基因读取片段reads具有长度短、准确度低、数据海量等特点[1-2],这就对序列拼接算法提出了相当严峻的挑战,传统的序列拼接软件已不再适用[3]。为此,即需针对新一代测序的数据特点,从实际应用需求出发,研发新的优质高效的序列拼接软件。   本文针对新一代测序数据的数据特点,提出了基于reads引导的基因组序列拼接算法(SRGA),并以整条reads为拼接单位,首次提出了基于数据特征和拼接信息累计的评分机制,从而减少不必要的重复计算,同时也提高了基因组序列拼接的质量和速度。   1 reads数据预处理   在序列拼接过程中,reads数据的预处理具有重要意义。由于新一代测序数据精确度较低,以及数据海量,造成reads中含有大量的碱基错误。理论上讲,De Bruijn图构建时,图的大小规模只与基因组的大小相关,与reads数据量无关。但在碱基错误的影响下,De Bruijn图[4]实际大小会随着reads数据的增加呈现几何型增长。拼接时,reads中的碱基错误也极易导致错误拼接。因此,拼接前需要对数据进行预处理,去除初始数据中的错误碱基。   (1)新一代测序数据的准确率较低,错误碱基主要分布在reads 3’端,并且越靠近3’端错误率越高,reads 3’端错误率更高,接近20%,而在5’端则非常准确[5],如图1所示。为降低错误碱基对拼接的影响,拼接前需过滤掉出错率较高的碱基数据。处理方法为:以靠近3’端二分之一reads长度的碱基序列为基准,计算该区域碱基序列的质量平均值,若该值小于15,则过滤掉该条reads。该平均值对应碱基的错误率,计算公式为:   (1)   其中,Q为碱基质量值, 为碱基出错率。   图1 Solexa数据错误分布   Fig.1 Error display of Solexa data   (2)测序过程中往往会产生许多人工数据[6],这些reads数据会有许多标识为A的碱基序列,需要去除。处理方法为:若某条reads中A含量=0.9,则该reads被过滤掉。   (3)测序过程中有时会产生一些没有被测出来的通常表示为“N”或“.”未知碱基[7],需要去除。处理方法为:如果某条reads中含有未知碱基,则该条re

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档