- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BOINC的CAS@home志愿计算工程-Indico
基于BOINC的CAS@home志愿计算工程 武杰,伍文静,杜然,陈刚 中国科学院高能物理研究所计算中心 提纲 志愿计算与CAS@home BOINC运行原理 蛋白质结构预测应用 工程统计信息 总结与展望 志愿计算与CAS@home 志愿计算是一种分布式计算,其基本思想就是让全球大众贡献他们的空闲计算资源以帮助科学家解决科学研究中所遇到的计算难题 最流行的中间件:伯克利开放式网络计算平台(BOINC) ,其获取的聚合计算能力相当于一台5.54 PeraFLOPS 的超级计算机 CAS@home是由中国科学院高能所牵头,中科院计算所等研究机构参与发起的一个志愿计算项目 基于BOINC 不同与SETI@home等项目,定位于一个多应用平台 来自中科院计算所的蛋白质结构预测项目运行在其上 提纲 志愿计算与CAS@home BOINC运行原理 蛋白质结构预测应用 工程统计信息 总结与展望 BOINC运行原理(1) BOINC运行原理(2) 服务器端 转换器的功能是在作业被提交并记录到数据库中后,根据预定参数实例化作业,并且在一个实例化的作业运行失败后,自动实例化更多的作业。这里我们将实例化后所得到的作业称为实例作业。 供给器的功能是扫描数据库,读取实例作业到共享内存中,其目的是加快作业调度的速度。 调度器的功能是调度实例作业并依据作业在客户端运行的情况来修改实例作业状态。 文件上传器的功能是响应客户端上传文件的请求。 验证器的功能是如果一个作业没有决定性的实例作业,则为其挑选一个决定性的实例作业;否则,就与决定性实例作业做比较以验证其他待验证实例作业。 吸收器的功能是处理已经得到决定性实例作业的作业进而得到该作业相应的最终结果。 客户端 核心客户端主要功能是下载作业,运行作业,报告作业运行状态,上传输出文件,清除作业运行环境等 客户端管理器主要是为方便志愿者而提供的一个图形界面管理工具 应用程序就是与应用相关的一些程序,主要包括计算程序和屏保程序。 提纲 志愿计算与CAS@home BOINC运行原理 蛋白质结构预测应用 工程统计信息 总结与展望 提纲 志愿计算与CAS@home BOINC运行原理 蛋白质结构预测应用 工程统计信息 总结与展望 相关知识 蛋白质结构预测: 帮助理解细胞结构,对生物理论、医学、制药等领域意义重大 “穿线法”(Threading)是主流的蛋白质结构预测方法,主要通过将未知蛋白质序列与已知蛋白质结构库进行对比,从而对未知的蛋白质结构做出预测。 依据蛋白质结构联配时出现的short-cut现象提出的一种高效的结构预测方法 来自中科院计算所卜东波等人基于short-cut现象实现了一个非常高效的穿线法 需要把要预测的目标序列和数据库中的每一个模板做联配,这个过程是非常耗费计算资源的 为什么其适合志愿计算 没有紧迫的时限要求。在实际的工程部署中,我们要求志愿者在7天之内完成作业,而实际上如果连续运行这样一个作业,所需时间平均仅30分钟左右 应用的结构简单,而且应用程序本身也很小,大约才600KB 计算密集型要求。描述一个蛋白质所有文件的总大小平均约为1KB,描述一个模板文件的总大小约为10KB并且二者联配后对应的输出大小平均约为1KB。依据在一台处理能力为每秒10亿浮点数量级的普通机器上的测试,这样一次联配的过程平均大约需要6秒。也就是说,处理1MB的数据平均大约需要10分钟。这还没有考虑我们上面提到的本地调度策略。如果针对模板文件应用本地调度策略,模板文件的传输也就可以忽略,所以处理1MB的数据平均需要100分钟 并行性要求。应用中各个模板之间是独立的,每个联配之间没有任何关系 应用屏保程序 基本流程图及最终效果图 作业提交与数据回传的实现(1) 一方面为了方便来自计算所的科学家们提交作业和获取结果,另一方面为了保证服务器的安全,我们以基于Web的形式使用PHP语言实现了作业提交,以主动数据服务的方式实现了数据回传。整体数据流图如图所示,其中实线为作业提交的数据流,虚线为数据回传的数据流。 作业提交与数据回传的实现(2) 作业提交主要分布四个模块:蛋白提交,模板更新,作业提交,蛋白删除。 蛋白提交模块的主要功能是把压缩后的蛋白质描述文件上传到CAS@home服务器。 模板更新模块的主要功能是把位于中科院计算所ftp服务器里的压缩后的模板数据更新到CAS@home服务器上。 作业提交模块的功能是选择一个已提交蛋白质,调用对应的作业提交脚本提交作业。 蛋白删除模块的功能是删除在CAS@home服务器上不再需要的蛋白质描述文件。 为了服务器的安全以及不加重服务器被访问的负担,在结果回传中我们采用了主动数据服务的方式。具体实现为CAS@home服务器每隔一小时会检查一下存放运算结果的
文档评论(0)