- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE
PAGE11
DNA压缩及模式匹配研究平台
作品设计发明的目的和基本思路,创新点,技术关键和主要技术指标
目的
二十世纪末生物信息学迅速发展,在信息的数量和质量上都极大的丰富了生物科学的数据资源,包括NCBI,EMBL,GDB等,DNA数据库的数据量在以每年两到三倍的数量增加。现在为存储DNA数据需要越来越大的空间。因此,对DNA数据进行压缩以减少存储空间将是生物学家和计算机专家面临的挑战。由于DNA数据的特殊性,即DNA序列数据由ACGT四个字母组成,并且DNA序列长度可达到上千万个碱基对,使用传统的数据压缩算法并不理想。于是,必须研究专门针对DNA序列数据的压缩算法:DNA压缩算法。
在生物学家对DNA序列数据的使用中,序列比对是生物信息学中最基本最重要的操作之一。从实现的理论和技术上讲,DNA序列比对的实质是一种特殊的模式匹配,而直接在压缩后的DNA数据上进行序列比对其实质则是一种特殊的压缩模式匹配,即DNA压缩模式匹配。
为了更好地研究DNA压缩算法和DNA压缩模式匹配算法,我们将建立一个研究平台。该平台主要用于管理和增加DNA压缩算法和DNA压缩模式匹配算法,存储DNA序列数据DNA压缩数据,能实现各算法的效果的比较试验,验证算法的有效性。
思路
以Java技术和二次数据库技术,建立一个不依赖具体机型和操作系统的DNA压缩和DNA压缩模式匹配研究的专用平台;并利用该平台,结合DNA序列数据的特点,研究DNA序列数据压缩现有算法和提出新的算法,以有效减少DNA数据所占用的存储空间;研究出专门针对DNA压缩数据的压缩模式匹配算法,以解决在不对DNA序列压缩数据解压或最小解压缩的情况下实现序列比对功能。
创新点
1可扩展
利用面向对象的Java技术,建立专业的生物信息学研究平台,可持续地开展DNA压缩算法和DNA压缩模式匹配算法的研究。具体地说,平台的可扩展性体现在两方面:一是有意义明确的包,尤其是包matching和compress。二是GUI界面都是用Swing组件写成的,每个面板的功能都是相当明确,其中负责压缩信息处理的CompressPanel和负责模式匹配的MatchingPanel就是很好的体现。
假如,我们现在的平台需要增加一个新的压缩算法,那么我们要把这个压缩算法设计为一个类,把它放到包compress中,再在面板CompressPanel中的树状选择压缩算法,为用户增加一个新的选项,即可完成扩展。如果现在的平台需要增加一个新的匹配算法,那么我们要把这个匹配算法设计为一个类,把它放到包matching中,再在面板MatchingPanel中的树状选择匹配算法,为用户增加一个新的选项,即可完成扩展。
2减少DNA序列存储空间
参考文本压缩算法思想,根据DNA序列数据的特点,研究专门用于压缩DNA序列数据的DNA压缩算法。DNA压缩算法可以高效地压缩DNA序列数据,极大地减少DNA序列数据所占用的存储空间。
3DNA序列比对研究
利用压缩模式匹配的思想,根据DNA序列数据的特点,专门研究在对DNA序列压缩数据不解压缩或最小解压缩的情况下,直接在DNA压缩数据库中实现DNA序列比对的功能。
4直接使用压缩DNA数据研究
不是把DNA序列数据压缩减小存储空间作为唯一目标,而是把直接有效地利用DNA序列压缩数据作为更重要的目标。
技术关键
1面向对象的Java技术
使得该平台不依赖操作系统和具体机型,因此可运行在小型机高级服务器PC台式机笔记本电脑和UnixSolarisWindows和Linux等环境。
2多线程技术
在java中,程序通过流控制来执行程序流,程序中单个顺序的流控制称为线程,多线程则指的是在单个程序中可以同时运行多个不同的线程,执行不同的任务。多线程意味着一个程序的多行语句可以看上去几乎在同一时间内同时运行。
3Swing技术
Swing组件被称为轻量级组件(lightweightcomponent),是由纯Javacode开发的,它不需要那些关于各种平台的复杂的GUI功能,解决了Java因为窗口类而无法跨平台的问题,并且不会占有太多的系统资源。Swing组件对比AWT组件具有更大强度的可移植性和灵活性。
主要技术指标
平台可扩展性算法效率算法比较效果
作品的科学性先进性(必须说明与现有技术相比该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)
1采用java面向对象编程技术,具有良好的平台无关性及功能可扩展性。
2研究DNA压缩算法和DNA压缩模式匹配算法具有重要意义,该平台为研究人员的工作提供便捷。利用该平台,作者已发表中文核心期刊文章一篇。
3目前针对DNA压缩算法和DNA压缩模式匹配算法的平台不多。
4参考
文档评论(0)