基于字典DNA序列压缩算法研究及应用.docVIP

基于字典DNA序列压缩算法研究及应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于字典DNA序列压缩算法研究及应用

基于字典DNA序列压缩算法研究及应用   摘 要:在现有DNA序列数据压缩算法的基础上,以DNA序列数据的存储效率及生物学解释综合考虑,设计并实现了基于字典的DNA序列压缩算法DNADCompress。算法核心包括重复子串字典建立、字典项筛选、字串压缩编码三方面。实验数据表明,数据压缩算法压缩效果达到常用DNA序列压缩算法水平,并为序列生物学解释提供基础。   关键词:数据压缩;生物信息学;DNA序列数据   中图分类号:TP391文献标志码:A   文章编号:1001-3695(2007)06-0265-03   生物信息学是一门交叉科学,它综合运用数学、计算机科学和生物学知识及工具来阐明和理解大量生物数据所包含的生物学意义,其研究内容包括生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面。在生物学中,基因是由四种不同的脱氧核糖核苷酸(腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶,简称为A、G、C和T)按照特定的编码规则连接而成的脱氧核糖核酸(DNA)序列。其中蕴藏着生物体中所有的结构信息和控制信息。可以说基因就是生物体内的控制中心和一本完整地讲述人体构造和运转情况的指南,通过它可以揭开有关人体生长、发育、衰老、患病和死亡的秘密。自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。截至2005年3月,仅记录在EMBL数据库中的DNA序列已达??85 134 714 382??条[1]。生物学数据的积累并不只表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。生物信息数据急速的积累,在人类的科学研究历史中是空前的。海量的数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识[2]。??   随着生物序列数据日益增加,数据占用的存储空间也日益增大。如何在有限的存储空间存储生物序列数据成为计算机专家和生物学家面临的新问题。以更加有效的压缩编码方式,用较小的存储空间存放较大的DNA序列数据是必然的选择。但是,由于DNA序列数据的特殊性,即DNA序列数据由A、C、G、T四个字母组成,并且DNA序列长度可达到上千万个碱基对,使用传统的数据压缩算法并不理想,由此出现了多种专门针对DNA序列的压缩方法[3-8]。但是,在现有压缩算法中,只是单纯对数据进行压缩,并没有考虑到序列的生物学解释,如在构建压缩字典时根据重复子串出现频率分析序列数据的特征。针对这一状况,在序列进行压缩过程中发掘序列的生物学解释,是本系统追求的目标,即提高序列压缩效果,并从中发掘生物学意义。??      1 DNA数据压缩的相关工作??   以色列科学家Ziv和Lempel在1977年及1978年使用字典替换的思路对数据进行压缩,并达到良好效果[9,10],形成了LZ系列算法。1984年,Welch实现了LZ78算法的一个变种――LZW[11]。LZW继承了LZ77和LZ78压缩效果好、速度快的优点,在算法描述上更容易被人们接受,实现也比较简单。20世纪80年代中期以后,人们对LZ77进行了改进,随之诞生了一批今天还在大量使用的压缩程序。LZ77得以和LZ78、LZW一起垄断当今的通用数据压缩领域。目前,基于字典方式的压缩已经成为一个被广泛认可的标准。??   由于DNA序列数据的特殊性,使用传统的数据压缩算法并不理想。1993年Grumbach S.和Tahi F.从经典的基于字典压缩的LZ系列算法中提出BioCompress算法[4],从搜索和编码两方面针对DNA序列进行改进。两年后,Sato H.等人提出Cfect算法[5],引入后缀树数据结构,提高搜索重复字符串速度,并提高序列数据的压缩率。1999年X. Chen的GenCompress算法[6]是对BioCompress算法的改进,使序列数据压缩的压缩速度和压缩率提高到实用层次。2002年,X.Chen、M.Li以生物数据序列比对为基础,提出DNACompress算法[7],进一步提高序列数据压缩率。2004年,台湾大学的张均合提出DNAC算法,在重复子串方面对DNA序列压缩率进行讨论[8]。??   在以上算法基础上,笔者以字典压缩为基础,结合对生物数据利用思想,设计和实现了称之为DNADCompress的DNA序列数据压缩算法。??      2 DNADCompress的设计与实现??   DNADCompress算法参考了DNA序列专用压缩算法的设计思想,如BioCompress、Cfact、GenCompress,把数据压缩算法分为两个步骤:重复子串字典构建和字串压缩编码。其中字典构建包括了重复子串字典构建和字典项筛选算法两个步骤。在重复子串字典构建中采用重复子串搜索算法得到输入序列重复字典;字

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档