A题:通用神经网络处理器下的核内调度问题.docxVIP

  • 2
  • 0
  • 约1.35万字
  • 约 15页
  • 2026-06-23 发布于新疆
  • 举报

A题:通用神经网络处理器下的核内调度问题.docx

2025年中国研究生数学建模竞赛A题

通用神经网络处理器下的核内调度问题

背景

在如今各类通用神经网络加速处理器(NeuralProcessingUnit,NPU)中,基于单指令多数据流(SingleInstructionMultipleData,SIMD)架构的处理器硬件设计简单,面效高指相同工艺下单位芯片面积能实现的计算能力更高。,成为边缘推理任务的首选,但其软件模型适配的复杂性成为其大规模商用的关键瓶颈。在神经网络推理过程中,算子(如矩阵乘Matmul、卷积Conv、注意力Attention等)是最小任务单元,其执行效率直接影响模型在平台上端到端的推理性能。我们将算子在SIMD架构硬件平台上的完整计算过程拆解为由硬件单元操作构成的细粒度计算图,并通过手工或自动的方式编排成可在SIMD平台本题中特指华为Davinci架构平台。上执行的任务。由于这类计算图具有高度异构性(算子类型多样、输入形状动态变化、拓扑结构复杂),人工编排方式难度大,缺乏通用性,且效率低下,无法在如

指相同工艺下单位芯片面积能实现的计算能力更高。

本题中特指华为Davinci架构平台。

因此,亟需设计一种通用调度算法,自动地将计算图中各原子操作编排调度到各硬件单元上执行,取代低效的人工编排计算单元流水的过程。该算法需面向SIMD平台的硬件限制,给出由硬件单元操作组成的计算图的优化调度顺序,使

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档