多核环境下的生物信息序列比对并行优化方法的研究软件工程专业论文.docxVIP

多核环境下的生物信息序列比对并行优化方法的研究软件工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多核环境下的生物信息序列比对并行优化方法的研究软件工程专业论文

分类号U 分类号 U D C 密级- 袋 五 暑京 泸产哮’ 硕士研究生学位论文 多核环境下的生物信息序列比对并行优化方 法的研究 申请人: 张欣园 学 号: 2121394 培养单位: 计算机科学技术学院 学科专业: 软件工程 研究方向: 多核并行 指导教师i 王嘉芳副教授 完成日期: 2015年4月30日 万方数据 llIIII llIIII I I II II III III U III Y27701 67 中文摘要 中文摘要 随着大数据时代的到来,如何提高计算效率已经成为焦点问题。随着生物 数据库信息的日益增多,需要对原有的串行计算模式进行改变。同时提高主频 和淘汰单核心的多核心结构成为并行计算的主流。不同于GPU特殊的硬件要 求,多核结构在数据传输、可移植性能上和发展前景上都具有优势,所以本文 选择在多核平台上使用OpenMP语言对广泛使用的BLASTN进行并行计算的 研究,同时使用基于Trie树的预处理机制和调度分配算法更好的减少时间花销。 首先,本文提出基于Trie树的预处理算法,主要思想是利用Trie树过滤 完全相同的字组,对数据库进行简化处理,减少BLASTN算法中匹配的次数。 预处理机制包括将原数据库分割成多个小数据库,将数据库中的目标序列划分 成长度为形的字组哈希表,建立Trie树存储相同的字组。实验表明,建立Trie 树的预处理机制在数据库规模较小时反而不如数据库规模较大时高效,但是对 于优化BLASTN的并行算法有一定的作用。 其次,本文研究了BLASTN算法的串行程序,分析其并行化可行性,使 用Perf对BLASTN进行热点函数分析,对BLASTN进行并行化改造。其并行 BLASTN的思想主要在种子阶段和延伸匹配阶段,前者将查询序列的字组划分 阶段和查询序列的字组与目标序列字组比对得到高分字组(HSP)阶段同时并 行化,同时,利用多个核心同时计算任务量;后者对延伸匹配阶段实行左右同 时进行延伸匹配和合并HSP的位置搜索树上连续相邻的字组,减少重复匹配 次数,使并行改造后的BLASTN进行加速。实验表明,最好的情况下,并行 后的BLASTN算法的时间与原来相比减小接近一半,即加速比为2,但是随着 序列数据库的增加,加速比曲线将会持续上升。 最后,针对处理器上多核心的计算任务的分配调度提出了基于栈的周期性 调度分配算法ZD,衡量任务量大小的基准采用数据库中序列的长度。实验表 明,本调度算法在一般情况下对计算量均衡分配和调度,在最坏的情况下ZD 万方数据 黑龙江大学硕士学位论文算法与无调度算法效率相同,并不影响其正常运行。 黑龙江大学硕士学位论文 算法与无调度算法效率相同,并不影响其正常运行。 关键词:多核;OpenMP:生物信息;序列比对;BLASTN 万方数据 Abst旧ctAbstract Abst旧ct Abstract With the development of big data,it has been a hot topic that how to improve the computational efficiency.Also with the increasing of biological database,it causes the change for the original serial computing model.While increasing the frequency and multi—core structure has become mainstream parallel computing instead of it.Unlike specific hardware requirements of GPU,multi·core structure in data transmission or portability both have an advantage on the upper and prospects,this paper will use OpenMP on multi—core platforms which is widely used to parallel BLASTN,and to reduce the time expenses the Trie which based preprocessing mechanism and scheduling assignment algorithms is used on parallel computing. Firstly,this paper proposes preprocessing algorithm based on the Trie structure,th

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档