针对深度学习中不规则内存访问的高吞吐内存管理单元.pdfVIP

针对深度学习中不规则内存访问的高吞吐内存管理单元.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

高技术通讯2024年第34卷第7期:714-725

doi:10.3772/j.issn.1002-0470.2024.07.005

针对深度学习中不规则内存访问的高吞吐内存管理单元①

②③

丁峰李曦

(中国科学技术大学计算机科学与技术学院合肥230026)

摘要人工智能应用的多样化与复杂化导致了算法模型的不规则内存访问,即集中突

发的访问请求与稀疏的访问地址,从而给智能应用在内存资源严格受限的移动端设备的

部署带来了挑战。这种不规则的内存访问导致了现有架构中内存管理单元(MMU)的地

址转换面临低吞吐和长延迟的问题,使其成为系统访存通路的瓶颈。针对上述问题,本文

提出了一种新的高吞吐MMU架构方案(HTMMU),通过多流并行,加强冗余请求的过滤,

合理地分配有限的片上存储资源等手段,从而能高吞吐、低延迟地处理不规则访问的地址

转换,提升系统访存效率。实验结果表明,在处理人工智能算法内突发的稀疏访存时,相

较于当前主流MMU设计方案,HTMMU平均获得了2.43倍的性能提升,而平均访问延迟

降低为原先的34.1%,同时将额外面积开销控制在3.0%以内。

关键词内存管理单元(MMU);地址转换;不规则访存;深度学习;高吞吐

人工智能应用的多样化与复杂化导致了深度学执行特点。通常,人工智能算法将数据以批次

习模型中的不规则内存访问。这种不规则性体现在(batch)为单位进行推理或训练。虽然分批次的数

2个方面:(1)稀疏的访问地址;(2)集中突发的访据读取和执行可以最大化地利用硬件计算和带宽资

问请求。一方面,稀疏的地址访问行为是人工智能源,但也容易导致某批次数据在短时间内集中访存

[1]

算法中常见的运行特点之一。例如推荐系统中的现象。

用户—物品的交互矩阵,其本质是稀疏度极高上述不规则的访存行为给移动端设备中的内存

[2-3]

(95%~99%)的稀疏矩阵,即使用嵌入技术将管理单元(memorymanagementunit,MMU)带来了巨

用户和物品的特征转为低维、密集的嵌入向量,其嵌大的吞吐压力,进而导致系统访存效率下降。具体

入表查找过程仍会受到输入数据的随机性影响而产地,移动端设备中直接存储器访问(directmemory

生大量不规则访存;使用图神经网络(graphneuralaccess,DMA)单元的访存效率直接影响了系统的执

[4]

network,GNN)处理真实世界的大规模图数据时,行速度。但由于移动端设备的片上资源严格受限,

[5]

其非结构化稀疏度往往在75%~99%之间,在推因此参与运算的多维张量无法被完整地放入片上内

[8]

理和训练GNN时,聚合运算通常需要在稀疏图中访存。于是,这些多维张量通常会被DMA单元拆

问所有邻接节点的信息,导致了大量稀疏访存;在使解为多个位于片外内存的线性内存事务,再以串行

用剪枝技术压缩后的神经网络中,其输入激活矩阵的

文档评论(0)

你就是我的小鱼鱼 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年10月18日上传了教师资格证

1亿VIP精品文档

相关文档