基于变长子串的DNA重复序列预归并屏蔽方法.pdfVIP

基于变长子串的DNA重复序列预归并屏蔽方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于变长子串的DNA重复序列预归并屏蔽方法.pdf

第34卷 第1期 武汉理工大学学报 ·信息与管理工程版 Vo1.34No.1 2012年2月 JOURNALOFWUT(INFORMATIONMANAGEMENTENGINEERING) Feb.2012 文章编号:1007—144X(2012)01—0016—04 文献标志码:A 基于变长子 串的DNA重复序列预归并屏蔽方法 蔡 葵 ,杨进才 (1.武汉理工大学华夏学院,湖北 武汉430223;2.华中师范大学计算机科学系,湖北 武汉430079) 摘 要:针对DNA序列拼接中的重复序列识别及屏蔽问题,通过对前期定长子串方法的改进,提出了一 种基于变长子串的新算法。新算法在扫描shotgun集合时,可以搜集到任意长度子串的重复信息,进一步精确 定位重复序列位置;然后利用变长子串信息对相应的shotgun片段进行预归并,缩减shotgun集合规模。计算 机模拟分析表明,新算法识别重复序列较之定长子串方法精确度更高,并可以有效降低拼接时的计算复杂度。 关键词:序列拼接 ;重复序列;屏蔽;变长子串;预归并 中图分类号:TP301.6 DOI:10.3963/j.issn.1007—144X.2012.O1.005 针对 DNA序列拼接,REPS…方法通过度量 表 1 W为 2的word字查找表 定长子串来确定重复序列。文献 [2—3]以此为 word 编号Nu word 编号Nu 基础,提出了各 自的定长为 k的重复序列识别屏 AA 1 GA 9 AC 2 GC 10 蔽方法。文献 [4]进一步提出了预归并的思想, AG 3 GG 11 但仍然局限于定长子串识别方法,对偏长的DNA AT 4 GT l2 重复序列处理能力不强,识别不够精确。 CA 5 TA 13 笔者在 PreMerged方法 的基础 上,引 入 CC 6 TC 14 HUANG 等提出的Superwordarray概念,继续预 CG 7 TG l5 归并思想,提出了利用变长子串来识别且屏蔽重复 CT 8 rrr 16 序列的VPreM方法。模拟实验证 明,较之 Pre— 大字符串F上 以P位置起始,长为 W的 Merged方法,VPreM方法识别重复序列的精确度 word,其在查找表中的编号Nu,就是P位置的编 更高,并且可以更大规模地缩减shotgun集合规模。 码,记为 Code(p)=Nu。若word中含#,则编号统 1 基于变长子串的预归并算法 一 设为Nu=一1。图1为一个大字符串F编码示 意图。 1.1 基本思想 通过编码可以找出任意两个rfagments之间, 将 shotgun集合

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档