第三章 并行计算翻译.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GPU-FWA:ALGORITHM AND IMPLEMENTATION( GPU-FWA--GPU Fireworks Algorithm烟花算法与实现) 在一个负担得起的成本GPU提供巨大的计算能力但目前尚不清楚传统范式适用于表达有效地实现架构对GPU并行的方式。在本节中,我们提出一个方法致力于GPU大规模并行体系结构。 该算法的目标在CUDA平台上实现: 优质的解决方案。该算法先进的算法比较可以找到好的解决方案 像其他群体智能算法,GPU-FWA是一种迭代算法。在每个迭代中,每一个烟花一个本地独立搜索。然后,触发利用启发式信息指导搜索过程。机制应该探索和利用之间平衡算法是自描述的,剩下的是明确下面我们详细解释这两个算法。 3.1 FWA模仿烟花在天空的爆炸过程一定数量的火花来这种策略旨在把更多的计算资源更多潜在的位置探索和利用之间平衡每个烟花更新当前的最佳火花。每个烟花生成一定数量的火花。火花的确切数量(m)依照特定的GPU硬件架构。这种固定编码的烟花更适合gpu的并行实现正如2.2节中提到的每个分配一定数量的流处理器(SPs)。所有线程在同一次执行一个共同的指令在这些流处理器SPs)。老一辈的特斯拉架构[8],号是8,费米架构[9]是16。 与我们的实验设置(GeForce 560 ti,见4.1。),大小是32,并分配给16 。为了避免硬件资源的浪费,应该是16或多个16。而更好的细化搜索可以通过运行实现更多的。 作为一个经验法则,费米架构应该是16和32的上一代特斯拉的架构8或16。因此每个烟花的火花可以由踏板在一个,而2.2节提到的,不需要任何额外的同步开销。 在GPU-FWA烟花在每个爆炸过程不交换信息,并为每个烟火火花数量是固定的。 首先,全通信在烟花需要显式同步,这意味着相当大的开销。通过让算法执行一个给定的迭代没有交换信息,时间就会大大减少。 其次,每个烟火火花产生的数量动态确定,通过优化必须动态分配。在控制操作是低效的,动态计算的任务是容易损害的整体性能。通过修复火花数量,我们每个烟花可以分配,这种方式,所有的火花隐式同步没有额外的开销。 它可以充分利用共享内存,因此,一旦烟花位置和从全局内存加载,不需要访问全局内存。全局内存访问的延迟可以大大减少。 启发式信息用于指导本地搜索,其他策略应采取保持烟花群的多样性。保持的多样性优化过程是至关重要的。 在这个突变过程,生成额外的火花。生成这样一个火花,首先,比例因子gg(1;1)分布。随机选择的烟花维度和当前最好的烟花之间的距离乘以g。因此,新的火花可以接近最好的烟花或进一步远离它。 一种称为attract-repulse的机制(ar-mutation)提出了实现这一目标一明确的方式 ar-mutation背后的,如图4所示他们要么被最好的烟花吸引“帮助”当前的最佳位置或拒绝最好的烟花来探索更多的空间。“吸引”和“”之间的选择反映了和探索平衡。 在[15]使用高斯变。但可以采取各种分布。均匀分布是最简单和容易使用,我们需要在该算法这种策略理论上分析ar-mutation机制,过程可以简化为一个一阶Markorv链。,x0 = 1,下一个 T在a,b之间服从正态分布,并且0a1,b1 然后第t个状态可以由下面的方程表示: 我们可以计算预期的位置 期望x是指数增长期望x是指数图5演示了一个仿真结果,树过程U(0:9;1:11)(= 1:005),U(0:9;1:1)(= 1),和U(0:9;和)(= 0:995)。模拟显示,即使= 1是很小的扰动,结果往往至于ar-mutation,这意味着烟花确保烟花可以在搜索空间更稳定“徘徊”,1-),其中属于(0,1). 然而,随着搜索范围是有限的应该更小心的赋值,且A设置成1. 图6所描述的,从左到右,从上到下,分别采取0.9到 0.1。在仿真,当x 100作为一种趋势,对于更快的收敛,反之亦然。但是确切的收敛速度是最合适的,是

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档