- 1
- 0
- 约1.53万字
- 约 21页
- 2026-06-25 发布于甘肃
- 举报
PAGE2
面向推荐系统推理的高并发矩阵向量乘存算一体宏与稀疏加速系统设计
摘要
推荐系统在互联网服务中扮演核心角色,其推理阶段以矩阵向量乘法作为主要计算负载,面临高并发、低延迟和功耗约束的严峻挑战。传统冯·诺依曼架构因访存瓶颈导致吞吐量与能效难以匹配日益增长的CTR模型规模。本课题设计一种基于SRAM的高并发存算一体宏单元,并提出稀疏掩码与矩阵分块存内计算加速架构,旨在从计算范式与数据流调度两个层面突破性能瓶颈。在全定制SRAM存储阵列中嵌入乘法与累加逻辑,使权重数据无需搬移即可完成并行乘加运算,同时利用激活值的稀疏特性,通过掩码机制跳过零值计算,结合矩阵分块策略将大模型映射至片上宏阵列,实现推理吞吐量的大幅提升。全文依循“需求分析→总体设计→详细设计→实现→测试”的工程递进路线,首先分析推荐推理对存内计算的需求与指标,进而给出宏单元架构、稀疏控制与分块调度的顶层设计,随后细化阵列电路、掩码生成逻辑与数据流水线,最终通过功能仿真与性能测试验证系统在1GHz工作频率下吞吐量提升3.8倍、能效提升4.2倍的成效。
第一章绪论
1.1研究背景
随着深度学习驱动的推荐系统在电商、短视频和社交平台广泛部署,模型复杂度与日俱增。典型的深度兴趣网络与多任务CTR预估模型包含数十亿参数,推理阶段需要对用户行为序列产生的高维稀疏特征进行实时处理。每一次推理请求均需执行大量矩阵向量乘法,
您可能关注的文档
- 量子通信网络中的可信节点中继架构与安全性评估模型.docx
- 基于相变储热材料的室内温湿度被动调节家具结构设计与热舒适度研究.docx
- 2026年牛津上海版四年级英语上册绘本戏剧课例:大卫不可以与规则意识培养探讨.docx
- 小学三年级英语简单海报制作中的图文搭配原则与信息层级呈现.docx
- 2026年部编版《道德与法治》二年级下册教学设计:公交车上文明行 .docx
- 车载信息娱乐系统隐私保护在2026年的用户控制机制研究.docx
- 公共卫生应急物资产能储备的沉没成本补偿与期权代储合约 .docx
- 《2026年小学数学一年级绘本融合教学设计与课程解析:一只蜗牛的数列之旅》.docx
- 高效产甲烷菌群的富集培养与厌氧消化过程强化技术竞争分析.docx
- 逆全球化下跨国企业供应链脱钩断链的战略替代与韧性重构 .docx
- 康复护理中的营养支持技术.pptx
- 批次03-04_2025-2026学年苏州市七年级语文下册期末质量检测原创仿真模拟试卷第001套.docx
- 批次03-03_2026届上海市闵行区六年级英语小升初分班考试模拟试卷第001套.docx
- 水域救援指南..docx
- 批次03-05_2026届成都市高一历史学业水平合格性考试原创仿真模拟试卷第001套.docx
- 批次03-01_2026届广州市白云区六年级数学小升初分班考试模拟试卷第001套.docx
- 批次03-02_2026届广州市越秀区八年级生物学业水平考试考前仿真模拟试卷第001套.docx
- 27_2026杭州新七年级英语暑假衔接学情诊断A卷.docx
- 2025-2026学年吉林省长春市第七十二中学八年级(下)期中道德与法治试卷(含答案).docx
- 2025-2026学年江苏省苏州市振华中学七年级(下)期中道德与法治试卷(含答案).docx
原创力文档

文档评论(0)