面向多种算力平台的大模型量化推理优化技术.docx

面向多种算力平台的大模型量化推理优化技术.docx

  1. 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
  2. 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  3. 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

演讲人:汤雄超博士

02

02

低精度算力正在成为AI算力主流

03

03

好的量化算法可以保持模型能力

04

04

高速量化推理需要贴合硬件架构

异构算力平台量化推理解决方案

随着摩尔定律失速,芯片设计依赖低精度算力提高性能和降低功耗

随着大模型体积增长,模型推理依赖低精度数据类型加速访存和计算,缩短推理时间

图片来源:NVIDIA网站

行业研究显示,低精度浮点数在大多数情况下能够比低精度整数更好地近似大模型的权重参数

与此同时,整数计算比浮点数计算更易实现,功耗也更低

图片来源:/pdf/2510.25602,Mengzhaochen等

不同精度的相对算力(以BF16为

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档