- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目 录
TOC\o1-2\h\z\u一、NSA颠覆性技术突破:从算法到硬件全面进化 4
(一)NSA实现技术突破,计算效率显著提高 4
(二)NSA完成技术创新,成功部署高效稀疏注意力机制 5
二、性能测试刷新SOTA,全面碾压传统方案 6
图表目录
图表1 基于Triton的NSA实现与基于Triton的FlashAttention-2训练速度比较 4
图表2 NSA在长序列解码时具有显著的效率优势 4
图表3 NSA架构 5
图表4 全注意力基线模型与NSA在通用基准测试上的预训练性能比较 6
图表5 通用基准测试中全注意力模型与NSA性能和效率比较 6
图表6 64k上下文长度下NSA实现完美的准确性 7
图表7 NSA模型与基线模型在LongBench上的性能比较 7
图表8 NSA-R在不同序列长度下性能展示 8
一、NSA颠覆性技术突破:从算法到硬件全面进化
(一)NSA实现技术突破,计算效率显著提高
技术上,NSA通过硬件级优化:将算术强度精确控制在GPU临界值(16.8TFLOPS/1.5TBps
≈11.2)之上;动态分层稀疏:采用32token压缩块+64token选择块的组合策略;三重注意力通路:压缩全局(6.25%计算量)、精选局部(25%计算量)、滑动窗口(8%计算量),使NSA架构在64K长文本场景下,实现解码速度提升11.6倍、前向传播9倍加速、反
向传播6倍加速。
图表1基于Triton的NSA实现与基于Triton的FlashAttention-2训练速度比较
ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse
Attention》
图表2 NSA在长序列解码时具有显著的效率优势
ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse
Attention》
(二)NSA完成技术创新,成功部署高效稀疏注意力机制
NSA在技术上引入了两个核心创新点:1.硬件对齐系统:优化块级稀疏注意力,使其充分利用TensorCore并优化内存访问,从而实现平衡的算术强度;2.训练感知设计:通过高效算法和反向传播运算符实现稳定的端到端训练,使NSA能够同时支持高效推理与完整训练流程。从而成功部署原生可训练的稀疏注意力架构,并集成了分层token建模。同时,NSA还设计了专用计算内核,以最大化实际计算效率。
图表3NSA架构
ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse
Attention》
二、性能测试刷新SOTA,全面碾压传统方案
通用基准评估中,NSA总体表现优越,在推理能力上展现显著优势。研究人员在一套全面的基准测试中评估了预训练的NSA和全注意力基线,覆盖了知识、推理和编码能力。尽管NSA具有稀疏性,但它在总体性能上表现优越,在9个指标中有7个超过了包括全注意力在内的所有基线,且在推理相关的基准测试中显示出显著的提升(DROP:+0.042,GSM8K:+0.034)。
图表4 全注意力基线模型与NSA在通用基准测试上的预训练性能比较
ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse
Attention》
图表5 通用基准测试中全注意力模型与NSA性能和效率比较
ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse
Attention》
长文本评估方面,NSA达到完美准确性。NSA使用层次化的稀疏注意力设计,该设计结合了压缩token以实现高效的全局上下文扫描,以及用于精确局部信息检索的选择token。粗粒度的压缩在低计算成本下识别相关的上下文块,而对选择token的token级注意力则
确保了关键细粒度信息的保留,使NSA能够同时保持全局感知能力和局部精确性。图表6 64k上下文长度下NSA实现完美的准确性
ingyangYuan等《NativeS
您可能关注的文档
- 海螺水泥至暗时刻已过,水泥核心资产迎价值回归机遇.docx
- 海外高频:美国1月CPI强于预期,特朗普签署对等关税命令.docx
- 海外流动性与权益市场跟踪:美股进入对风险回报要求更高环境中.docx
- 海外汽车行业市场分析报告:全球汽车市场电车渗透率仍有较大提升空间.docx
- 海外札记:再通胀和财政平衡,聊聊近期海外市场行情背后的两个宏观叙事.docx
- 航空机场行业2025航空系列深度之一:新周期起点,再论航空供需差.docx
- 航空运输行业月度专题:1月油汇向好、国内线运力同比微增,客座率高位维稳.docx
- 航天电器军用连接器龙头,核心受益航天高景气发展.docx
- 和林微纳专注微型精密制造,AI及先进封装打开芯片测试探针成长空间.docx
- 宏观2月23日德国大选有何看点?.docx
- 急诊科医生如何应对各种急性疾病.pptx
- 2025年山西工程职业学院单招职业技能考试题库1套.docx
- 2025年山西工程职业学院单招职业技能考试题库新版.docx
- 2025年山西工程职业学院单招职业技能考试题库汇编.docx
- 2025年山西工程职业学院单招职业技能考试题库汇编.docx
- 2025年山西工程职业学院单招职业技能考试题库一套.docx
- 2025年山西工程职业学院单招职业技能考试题库必考题.docx
- 2025年山西机电职业技术学院单招职业技能考试题库必考题.docx
- 2025年山西工程职业学院单招职业适应性考试题库学生专用.docx
- 高中化学分子结构教学中加强学生空间想象力的方法教学研究课题报告.docx
文档评论(0)