XDMA: 一种用于异构多加速器 SoC 中布局灵活 数据传输的分布式可扩展 DMA 架构.pdfVIP

  • 0
  • 0
  • 约3.93万字
  • 约 5页
  • 2026-03-06 发布于北京
  • 举报

XDMA: 一种用于异构多加速器 SoC 中布局灵活 数据传输的分布式可扩展 DMA 架构.pdf

XDMA:一种用于异构多加速器SoC中布局灵活

数据传输的分布式可扩展DMA架构

FanchenKong,YunhaoDeng,XiaolingYi,RyanAntonio,MarianVerhelst

MICAS-ESAT,KULeuven,Belgium

{fanchen.kong,yunhao.deng,xiaoling.yi,ryan.antonio,marian.verhelst}@esat.kuleuven.be

摘要—随着现代人工智能工作负载越来越多地依赖异构加速

LocalMulti-BankedMemLocalMulti-BankedMemLocalMulti-BankedMem

器,确保加速器内存之间具有高带宽和布局灵活的数据传输已成

为一个紧迫的挑战。直接内存访问(DMA)引擎承诺实现数据移DataStreamingEngineDataStreamingEngineDataStreamingEngine

动时的高带宽利用,但通常仅对连续内存访问最优化,因此需要

WriteReadWriteReadWriteRead

额外的软件循环来转换数据布局。这反过来又会导致过高的控制

PluginPluginPluginPluginPluginPlugin

开销和片上互连的利用率低下。为了克服这种低效性,我们提出XDMAAcc.XDMAAcc.XDMAAcc.

本C0C1C2

了XDMA,这是一种分布式且可扩展的DMA架构,能够实现

cfgcfg

AXINetwork

译具有高链路利用率的布局灵活的数据传输。我们引入了三个关键datadata

中创新点:(1)数据流引擎作为XDMA前端,用硬件地址生成器替图1:XDMA在多加速器SoC中移动数据

代软件地址生成器;(2)一种分布式的DMA架构,最大化链路

1利用并分离配置与数据传输;(3)用于XDMA的灵活插件,允许GeMM需要分块布局、SIMD需要行优先布局等。次优的

v

6在数据传输过程中即时处理数据。XDMA在合成工作负载中展示布局会导致推理延迟比针对特定加速器优化的格式[7]增

9了比软件实现高出151.2/8.2的链路利用率,并在实际应用中加高达100倍,因为显式数据布局转换在能源和延迟方

3实现了平均2.3倍的速度提升。我们的设计相比于最先进DMA

8面是昂贵的。

0解决方案增加了2%的面积开销,同时消耗了系统功率的17%。

.XDMA证明了共同优化内存访问、布局转换和互连协议是解锁异直接内存访问(DMA)引擎是实现高带宽数据在内存

8

0构多加速器SoC性能的关键。之间传输的关键组件。然而,传统的DMA只能复制连续

5IndexTerms—DMA

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档