- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多云工作流优化传输费用数据布局策略
摘要:科学工作流应用是一种复杂且数据密集型的 应用,常应用于结构生物学、高能物理学和神经学等涉及分 布式数据源的学科。数据分散存储在基于互联网的云计算平 台上,致使科学工作流在执行时伴随着大量的数据传输。云 计算是一种按使用量付费的模式,数据传输产生传输费用, 尤其在多个工作流相互协同的情况下,将产生更高的传输成 本。该文从全局的角度建立基于多工作流数据依赖图的传输 成本模型,研究基于二进制粒子群算法(BPSO)的数据布局 优化策略,从而减少对云计算传输资源的租赁费用。
关键词:云计算;工作流系统;云工作流;数据布局; 二进制粒子群算法
中图分类号:TP18文献标识码:A文章编号:1009-3044 (2014) 10-2418-03
Abstract: Scientific workflow is a complex and data—intensive application. It often used in disciplines related to distributed data sources, such as structural biology , highenergy physics and neurology. Data distribute in Internet-based cloud computing platform, resulting in transferring mass of data by scientific workflow running .Because cloud computing is a pay-per-use model, so data transfer costs incurred. Especiallyin the case of multiplecooperative workflows , datatransmissionwill produce higher costs?Firstly, this paper based on multiple workflow data dependence graphestablish transmissioncost model. Secondly , this paperproposed anew particle swarm optimization-based strategy for cost-effective data layout in multipie scientific cloud workflows .The experimental resuIts show that the strategy is much better than its traditionol counterparts.
Key words: cloud computing; workflow system; cloud workflow ; data layout ; binary particle swarm optimization algorithm
1概述
科学工作流应用是一种复杂且数据密集型的应用,常应 用于结构生物学、高能物理学和神经学等涉及分布式数据源 的学科,这些学科通常都要处理海量的数据。因此,科学工 作流的数据的表示和结构值得深入研究[1]。随着科学工作 流的发展,越来越多的科学工作流研究者认识到在云环境中 运行科学工作流比在其他分布式等环境中有更好的成本效 益[2~3]o
云计算技术的出现提供了一种新的方式来部署科学工
作流,云计算是分布式计算的新范式,以付费的方式向用户提供基础设施、平台和软件等服务[4-5] o当前已有一些部
署在云计算环境上科学工作流项目,例如Nimbus[6]和
Cumulus [7]项目。Deelman等人[8]提出云计算能为科学工作
流提供一个十分经济的部署方案[
流提供一个十分经济的部署方案[9]。此外,
云计算基于互
联网Internet,因此全世界的科学家可以通过云计算在一起 进行研究、分享数据。当科学工作流在执行任务时,需要将 分布在互联网上不在本地的数据集传输到本地才能进行相 应的计算,因云计算环境以付费的方式提供存储、传输、计 算等服务,所以云计算环境下的工作流在执行过程中因会产 生大量的传输费用,如何减少传输费用则成为了一个在云计 算环境下部署科学工作流的挑战。
本文将提出一种基于二进制粒子群算法的多工作流数
据布局策略,在全面考虑数据集大小,数据集之间的依赖关 系,网络间的传输价格的基础,通过二进制粒子群算法对多 工作流的数据布局进行优化,优化多工作流的传输成本。
2相关工作
科学工作流的数据集按照来源可分为输
原创力文档


文档评论(0)