面向推荐系统推理的高并发矩阵向量乘存算一体宏与稀疏加速系统设计.docxVIP

  • 1
  • 0
  • 约1.53万字
  • 约 21页
  • 2026-06-25 发布于甘肃
  • 举报

面向推荐系统推理的高并发矩阵向量乘存算一体宏与稀疏加速系统设计.docx

PAGE2

面向推荐系统推理的高并发矩阵向量乘存算一体宏与稀疏加速系统设计

摘要

推荐系统在互联网服务中扮演核心角色,其推理阶段以矩阵向量乘法作为主要计算负载,面临高并发、低延迟和功耗约束的严峻挑战。传统冯·诺依曼架构因访存瓶颈导致吞吐量与能效难以匹配日益增长的CTR模型规模。本课题设计一种基于SRAM的高并发存算一体宏单元,并提出稀疏掩码与矩阵分块存内计算加速架构,旨在从计算范式与数据流调度两个层面突破性能瓶颈。在全定制SRAM存储阵列中嵌入乘法与累加逻辑,使权重数据无需搬移即可完成并行乘加运算,同时利用激活值的稀疏特性,通过掩码机制跳过零值计算,结合矩阵分块策略将大模型映射至片上宏阵列,实现推理吞吐量的大幅提升。全文依循“需求分析→总体设计→详细设计→实现→测试”的工程递进路线,首先分析推荐推理对存内计算的需求与指标,进而给出宏单元架构、稀疏控制与分块调度的顶层设计,随后细化阵列电路、掩码生成逻辑与数据流水线,最终通过功能仿真与性能测试验证系统在1GHz工作频率下吞吐量提升3.8倍、能效提升4.2倍的成效。

第一章绪论

1.1研究背景

随着深度学习驱动的推荐系统在电商、短视频和社交平台广泛部署,模型复杂度与日俱增。典型的深度兴趣网络与多任务CTR预估模型包含数十亿参数,推理阶段需要对用户行为序列产生的高维稀疏特征进行实时处理。每一次推理请求均需执行大量矩阵向量乘法,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档