大模型轻量化压缩部署技术实践答辩.pptx

大模型轻量化压缩部署技术实践答辩.pptx

  1. 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
  2. 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  3. 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第一章大模型轻量化压缩部署技术概述第二章基于量化感知训练的模型压缩技术第三章模型剪枝与知识蒸馏技术第四章部署环境优化技术第五章跨平台部署技术

01第一章大模型轻量化压缩部署技术概述

第1页引言:大模型应用挑战在大模型技术高速发展的今天,GPT-4等大型语言模型参数量已达到惊人的130B规模,单次推理耗时约500ms,这给移动端和边缘计算设备的部署带来了巨大的挑战。以某金融风控系统为例,该系统需要实时处理每秒高达1000条的风险请求,但现有模型部署后仅能支撑200条请求,导致在业务高峰期有高达80%的请求无法得到及时处理。这种情况下,大模型轻量化压缩部署技术应运而生,成为解决这一问

文档评论(0)

萧纽码 + 关注
实名认证
内容提供者

·

1亿VIP精品文档

相关文档