- 0
- 0
- 约3.93万字
- 约 5页
- 2026-03-06 发布于北京
- 举报
XDMA:一种用于异构多加速器SoC中布局灵活
数据传输的分布式可扩展DMA架构
FanchenKong,YunhaoDeng,XiaolingYi,RyanAntonio,MarianVerhelst
MICAS-ESAT,KULeuven,Belgium
{fanchen.kong,yunhao.deng,xiaoling.yi,ryan.antonio,marian.verhelst}@esat.kuleuven.be
摘要—随着现代人工智能工作负载越来越多地依赖异构加速
LocalMulti-BankedMemLocalMulti-BankedMemLocalMulti-BankedMem
器,确保加速器内存之间具有高带宽和布局灵活的数据传输已成
为一个紧迫的挑战。直接内存访问(DMA)引擎承诺实现数据移DataStreamingEngineDataStreamingEngineDataStreamingEngine
动时的高带宽利用,但通常仅对连续内存访问最优化,因此需要
WriteReadWriteReadWriteRead
额外的软件循环来转换数据布局。这反过来又会导致过高的控制
PluginPluginPluginPluginPluginPlugin
开销和片上互连的利用率低下。为了克服这种低效性,我们提出XDMAAcc.XDMAAcc.XDMAAcc.
本C0C1C2
了XDMA,这是一种分布式且可扩展的DMA架构,能够实现
cfgcfg
AXINetwork
译具有高链路利用率的布局灵活的数据传输。我们引入了三个关键datadata
中创新点:(1)数据流引擎作为XDMA前端,用硬件地址生成器替图1:XDMA在多加速器SoC中移动数据
代软件地址生成器;(2)一种分布式的DMA架构,最大化链路
1利用并分离配置与数据传输;(3)用于XDMA的灵活插件,允许GeMM需要分块布局、SIMD需要行优先布局等。次优的
v
6在数据传输过程中即时处理数据。XDMA在合成工作负载中展示布局会导致推理延迟比针对特定加速器优化的格式[7]增
9了比软件实现高出151.2/8.2的链路利用率,并在实际应用中加高达100倍,因为显式数据布局转换在能源和延迟方
3实现了平均2.3倍的速度提升。我们的设计相比于最先进DMA
8面是昂贵的。
0解决方案增加了2%的面积开销,同时消耗了系统功率的17%。
.XDMA证明了共同优化内存访问、布局转换和互连协议是解锁异直接内存访问(DMA)引擎是实现高带宽数据在内存
8
0构多加速器SoC性能的关键。之间传输的关键组件。然而,传统的DMA只能复制连续
5IndexTerms—DMA
您可能关注的文档
- POMO+:利用 POMO 中的起始节点解决容量车辆路径问题.pdf
- 视听语音增强:架构设计与部署策略.pdf
- 通过基于边界的对象修改在资源约束下增强小型 LLM 的对齐.pdf
- 简短证明:有限 Frobenius 硬币问题的精确解法.pdf
- 架构具有长上下文的 LLM 加速器与打包预取调度程序和超大容量片上内存.pdf
- 溢出:高效的语言模型解码两阶段模型.pdf
- 求解器辅助的循环扩展以避免生成和测试.pdf
- 通过强化学习生成与查询相关的文档摘要.pdf
- 模糊模式特林机.pdf
- 河北邢台市2025-2026学年高二上学期2月期末语文试题(含解析).docx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
原创力文档

文档评论(0)