物理设计探索用于埃米时代的线友好型领域专用处理器.pdfVIP

物理设计探索用于埃米时代的线友好型领域专用处理器.pdf

物理设计探索用于埃米时代的线友好型领域

专用处理器

LorenzoRuotolo,LaraOrlandic,PengboYu,MoritzBrunion,DanieleJahierPagliari,

DwaipayanBiswas,GiovanniAnsaloni,DavidAtienza,JulienRyckaert,FranckyCatthoor,and

YukaiChen

摘要—本文介绍了针对机器学习（ML）领域特定处理器效率之间实现了良好的折衷。近年来已经提出了几种

（DSIP）架构的物理设计探索，解决了先进Ångstrom时代技DSIP架构。VWR2A[2]和R-Blocks[3]是粗粒度可重

术中的互连效率挑战。该设计通过利用专门的记忆结构和SIMD构阵列（CGRA）设计，提供了灵活性但因类似脉动阵

本（单指令多数据）单元来减少线长并提高核心密度。五种配置使

列的互连而遭受路由效率低下的问题。同样地，作为可

译用IMEC的A10纳米片节点进行合成和评估。关键的物理设计

中指标在不同配置之间以及与最先进的DSIP基准VWR2A进扩展向量处理器的AraXL[4]也因其二维块基础布局未

行了比较。结果表明，我们的架构实现了超过的标准化线长能高效扩展而遭受路由拥塞。

v降低和高于的密度，且所有配置中的指标变异性较低，使其这些限制在先进技术节点中变得越来越重要。随着

0成为下一代DSIP设计的一种有前景的解决方案。这些改进是

1在极少的人工布局干预下实现的，展示了该架构内在的物理效率传统的缩放法则，如Dennard缩放和摩尔定律的失效，

1及其适合低成本布线友好型实施的潜力。新的微架构解决方案需要被开发以持续进入埃米时代，

0在这个时代特征尺寸将低于一纳米。尽管晶体管仍在缩

.IndexTerms—领域特定处理器，机器学习，物理设计，纳

8米片，布线长度优化。小，但互连线未能按比例缩小[5]。虽然通过采用新材料

5来处理导线和电介质已经探索了工艺层面的缓解措施，

2I.介绍解决布线瓶颈也要求架构级别的解决方案以实现“对导

v线友好”。减少平均导线长度不仅减少了电容负载，从

iIELDS例如机器学习（ML）和数字信号处理

x而降低峰值功率和总能耗，而且降低了电阻，有助于减

rF（DSP）正在迅速发展，从而增加了其应用的复

a轻IR降。此外，这种减少还改善了热行为，因为功率

杂性[1].这一趋势导致了定制加速器的日益采用，这些

和温度紧密相关[6]。

加速器通过在专门优化的硬件上执行内核来加快特定

任务的速度，尤其是在边缘设备中。尽管与通用CPU这些平均布线长度的减少必须在不牺牲可扩展性

相比，这些加速器非常高效，但它们缺乏灵活性，并且（以计算密度为衡量标准）的前提下实现，以便最大限

通常只加速工作负载的一部分。度地提高每单位面积的性能。现有的用于AI或DSP负