- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于BWT的DNA多重压缩算法的并行优化
摘要 DNA是生物生存、延续及发展的重要物质基础,DNA序列数据压缩在海量基因数据的存储、管理和传输中有重要作用。在数据压缩领域,不仅有传统的压缩方法,也已经存在一些专门的针对DNA序列数据的改进的压缩算法。本文提出了一种基于BWT的DNA多重压缩算法的改进,利用OpenMP和MPI对算法并行优化,并且对该算法进行了客观的性能分析和预测。
关键字 DNA;BWT;OpenMP;MPI;并行压缩
引言
生物信息学是在生命科学的研究中,融合多个研究领域,综合运用生物学、数学、计算机科学等知识和工具,对生物信息进行储存、检索和分析的科学。它是一门迅速兴起的边缘学科,同时是当今生命科学和自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。其研究重点主要是从DNA和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
DNA作为生物生存、延续及发展的重要物质基础,从大量的DNA序列的原始数据中提取有效生物学信息则具有重大科学意义。然而随着测序技术的发展,每天都有海量的DNA序列数据产生,这些数据占用的存储空间也随之日益增大。怎样在有限的存储空间内有效地存储生物序列数据成为当今计算机领域和生物学领域面临的新的挑战和问题,而数据压缩技术是解决这一问题的有效方法。
在计算机科学和信息论中,数据压缩是按照特定的编码机制用比未经过编码的数据少的位元或者其它信息相关的单位表示信息的过程。在数据压缩领域,已经存在一些专门的针对DNA序列数据的压缩算法,例如:1993年Grumbach s.和Tahi F.提出的BioCompress和之后改进的BioCompress-2算法,1999年x.Chen等人提出的GenCompress算法,2000 年T Matsumoto 和K Sadakane 提出的CTW+ LZ算法,2002年x.Chen等人提出的DNACompress算法,以及2007年G Korodi和I Tabus提出的GeNML算法。
而本文所介绍的,是基于Burrows-Wheeler Transformation算法的DNA序列数据多重压缩算法的OpenMP和MPI并行优化。
基于BWT的DNA多重压缩算法
基于BWT的DNA多重压缩算法主要思想为:首先,对DNA序列数据文件进行 0 /1编码,然后按编码将DNA序列数据分组进行转换形成新的文件,这样原来仅含有4个字符的DNA序列数据扩展到 256个字符,但是新文件的长度却缩短为原文件长度的1/4,这是多重压缩过程中的首要步骤。然后,根据转换后的数据特点,采用适合的传统经典的压缩算法进一步压缩。这种算法取得了良好的压缩效果。图1为该算法流程。
图1基于BWT的DNA多重压缩算法流程
本文在此算法基础上,寻找算法中可以并行优化的部分,采用OpenMP对Burrows-Wheeler Transformation算法、MTF变换改进,并用MPI对Huffman压缩算法进行了一定的并行优化,以期提高压缩速率。
基于BWT的DNA压缩算法的OpenMP并行化
本算法共分首次压缩和二次压缩两部分。对DNA序列数据进行0/1编码,将DNA序列数据转换成普通的文本数据,这相当于首次压缩。然后用Burrows-Wheeler Transformation算法对DNA序列数据进行变换,再用MTF变换将字母表中常用符号排在前列,最后用传统压缩算法Huffman算法对DNA数据进行二次压缩【1】。
2.1 DNA序列首次压缩
考虑到DNA序列数据仅由A、C、G、T四个字母组成,因此采用两个二进制位00、01、11、10来编码A、C、G、T这四个字符,即A→00,C→01,G→11,T→10。使用这种编码机制,原长度为m 字节DNA文本串T可以压缩成「m/4」字节的T′。由于进行字符转换是以字节为单位读入编码流,因此对不足1Byte的用x进行补位,称xx为不需要关注的编码单元。再通过对压缩串中不需要关注的编码单元进行简单的补0处理,使之可以字节为单位转换成一个新的字符,且每个字符与ASCII码值一一对应。
这种编码压缩方法,可以节省约75%的存储空间。因此对DNA序列数据进行0/1编码,其过程即是对DNA序列数据的首次压缩。同时经过转换,只有四个字符的字母表扩展为具有256个字符的字母表。即将特殊的DNA序列数据转换成了普通的文本数据,方便运用传统的经典压缩算法进行二次压缩。
2.2 DNA序列二次压缩
2.2.1
1994年Michael Burrows 和David Wheeler共同提出了一种全新的通用数据压缩算法,Burrows-Wheeler Transformation【2】。 Burrows-Wheeler Transformation压缩算
您可能关注的文档
- 初中学生课桌椅高度的确定数学建模毕业论文.doc
- 华能上安电厂3#机组凝泵变频改造控制方案毕业论文.doc
- 高星级酒店员工激励机制研究以XX大酒店旅游管理毕业论文.doc
- 人力资本、社会资本与残疾人收入基于湖北省的实证研究毕业论文.doc
- 忻师校友论坛设计与实现论文.doc
- 我国上市公司内部控制信息披露毕业论文.doc
- 基于PLC的树木刷石灰水自动控制装置论文.doc
- 基于显微CT技术的泡沫铜基本性能有限元预测方法研究材料学专业毕业论文.doc
- 论新员工培训在企业中的重要性毕业论文.doc
- 信息技术教学课堂管理之思考论文.doc
- 2025四川天府银行社会招聘备考题库(攀枝花)含答案详解(最新).docx
- 2025四川银行首席信息官社会招聘备考题库及完整答案详解1套.docx
- 2025四川天府银行社会招聘备考题库(攀枝花)带答案详解.docx
- 2025四川天府银行社会招聘备考题库(成都)含答案详解(a卷).docx
- 2025四川广元市利州区选聘社区工作者50人备考题库及答案详解(基础+提升).docx
- 2025天津银行资产负债管理部总经理或副总经理招聘1人备考题库含答案详解(典型题).docx
- 2025四川天府银行社会招聘备考题库(西充)附答案详解(考试直接用).docx
- 2025年中国民生银行南宁分行招聘2人备考题库及答案详解(全优).docx
- 2025天津银行高级研究人才招聘备考题库附答案详解(达标题).docx
- 2025大连银行营口分行招聘2人备考题库及参考答案详解一套.docx
最近下载
- PMAC801A智能型电动机保护控制器说明书V1.21-20220429.pdf VIP
- HBZ223.20-2002 飞机装配工艺 导管安装.pdf VIP
- 《水解酸化反应器污水处理工程技术规范》.pdf VIP
- 行政诉讼监督检查申请书范例.docx VIP
- 临床医学专业大学生生涯发展展示(医院麻醉科麻醉师).pptx VIP
- 四个卡箍的导管柔性连接.pdf VIP
- 神经阻滞麻醉与椎管内阻滞麻醉大课培训资料.ppt VIP
- 2025年知识产权保护中心招聘面试题库附答案.doc VIP
- 建筑消防技术知到课后答案智慧树章节测试答案2025年春四川化工职业技术学院.docx VIP
- 儿童化妆品监督管理规定解读二.pptx VIP
原创力文档


文档评论(0)