有意思的论文FPGACatapult(P1).PDFVIP

  • 4
  • 0
  • 约5.79千字
  • 约 6页
  • 2019-08-18 发布于北京
  • 举报
有意思的论文FPGACatapult(P1).PDF

4/4/2018 有意思的论文FPGA Catapult (P1) 有意思的论文FPGA Catapult(P1) Original 2018-01-20 Accela Zhao Accela推箱子 论文如下: [Catapult v1: A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services] (/en-us/research/wp- content/uploads/2016/02/Catapult_ISCA_2014.pdf) [Catapult v2: A Cloud-Scale Acceleration Architecture] (/pub/dburger/papers/MICRO16.pdf) 计算和存储规模不断上升,CPU核数和主频上升达到瓶颈。FPGA、ASIC 、RDMA等原本见于 HPC (高性能计算,High Performance Computing)加速,泛称作加速器(Accelerator) ,其功 能、技术演进,成本下降,开始大范围被互联网和数据中心采用。FPGA比CPU价格低,能效 (Power-efficiency)高,可定制、专用场景计算力强悍;ASIC性能、能耗全面优于FPGA,但开发 困难、掩模(Mask)昂贵,不可重编程;GPU则风起于深度学习对计算力的如饥似渴,浮点运算 强,大批量计算,可软件直接开发。FPGA、ASIC 、GPU各有特性和应用,本文着重FPGA。 Catapult v1/v2来自微软在Bing搜索引擎和Azure SDN 中应用FPGA的研究和实践,架构有数次变 迁。Bing的页排序(Page Rank)和搜索对低延迟流处理(用户请求流)的大规模计算和降低成本 有天然需求。在Bing产线成功的FPGA又被推广到Azure SDN 。SDN (Software Defined Network)对硬件加速(Offloading)也有天然需求;例如40Gb/s 网络,即5GB/s / CPU核2.4GHz ~= 2,即如果每个Byte用1 CPU cycle处理,如加解密,都需要专用2个核;对服务器这难以接受。 而CPU主频和核数提升有发展瓶颈,且这个性能问题又无法通过Scale out解决;这就有了FPGA等 硬件加速的需求。 对下面的链接详述了Catapult 项目在微软的发展脉络。 [Programmable chips turning Azure into a supercomputing powerhouse] (/information-technology/2016/09/programmable-chips-turning- azure-into-a-supercomputing-powerhouse/) Catapult v1 /s/JID96e0votEWvghAlN7UCw 1/6 4/4/2018 有意思的论文FPGA Catapult (P1) Catapult v1论文采用的是机架级(Rack-scale)FPGA架构,每个服务器配备一个高端FPGA卡。与 之相对的没有被采用的方案是由专用机架集中提供FPGA卡;这个方案引入异构服务器而不便管理, FPGA专用机架易成为单点故障,网络易出现TCP in-cast 问题(多对一数据传输,见DCTCP论 文)。 FPGA卡上配有8GB内存,使用ECC保护;一方面是为了提高容错,从而不必在FPGA中设计复杂的 带重传的网络协议(重传由应用控制),占用卡上面积。服务器使用SAS连接FPGA,一对四组成网 络;FPGA中实现专门的网络协议,SAS连接可达到亚微秒级延迟,单向传输带宽达到10Gb/s。因为 使用SAS连接,可接入结点数和连接距离受限,于是成了机架级(Rack-scale);另一方面,SAS连 接也是超级计算机(S

文档评论(0)

1亿VIP精品文档

相关文档