- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
虚拟筛选海量并任务管理系统中数据流的管理
摘要
虚拟筛选是在计算机上针对特定靶标蛋白筛选出最合适的候选药物的过程。随着
网格计算技术的发展,科学家越来越倾向于利用网格环境进行药物的大规模虚拟筛选
以减少新药研制的成本和时间。大规模虚拟筛选涉及海量数据,待筛选的小分子化合
物通常数以百万计。
在网格环境下进行基于分子对接的大规模虚拟筛选应用,通常的做法是科学家手
动查询小分子化合物并分组,在网格平台上编辑多个对接作业依次对分组进行计算,
手动下载所有对接结果。虽然利用了网格强大的计算能力,但是科学家的工作非常复
杂和繁琐,并且需要学习大量计算机领域知识。以CSGrid网格平台为基础设计的海量
并行任务管理系统,目的是实现大规模虚拟筛选应用在网格平台上的自动执行,从而
将科学家从繁琐的工作中解脱出来。海量并行任务管理系统将虚拟筛选应用分成多个
并行作业在网格甲台上计算,作业流和数据流的管理非常重要。本文的研究重点,就
是如何设计系统中的数据流管理功能,制定合理的数据流配置策略,使海量数据流配
合并行作业调度策略,实现网格环境下大规模虚拟筛选应用的高效自动运行,提高网
格资源的利用率。
本文设计的数据流管理功能由三个模块实现。第一个模块是查询条件定制接口,
该模块为用户提供了一个定制数据查询条件的图形编辑器;第二个模块是数据查询、
分组及传输WebService,该模块从分布式小分子化合物数据库中查询出符合条件的小
分子化合物,按可旋转键数排序并分组,再将分组上传至需要数据的网格节点。第三
个模块是统一数据管理空间,该模块提供了所有网格节点数据的全局视图,可以实现
虚拟筛选结果的并行下载。本文重点从用户体验和实现技术方面对各个模块进行了深
入的探讨。
Service
关键词:虚拟筛选,海量并行任务管理系统,数据流管理,Web
Abstract
Virtual is insilicothe
about bestcandidate ona
screeningselecting drugsacting given
the ofGrid are to
targetprotein.Withdevelopment apt
computing,scientistsimplement
virtual onGrids Virtual involvesmassof
screening environment.Large-scalescreening
number
data,the inthemillions.
ligands
When virtual on should
implementscreeningGrids,scientistsquery data,
data,group
data,invoke onGridsanddownloadresults
upload manydockingjobs manually.Thegoal
ofthe tasks basedonCSGridistheautomatismof
parallel
large—scale managementsystem
thevirtual dividesthevirtual into
screening.Th
文档评论(0)