人工智能行业专题研究AI模型下沉至终端_提升边缘计算需求.docxVIP

人工智能行业专题研究AI模型下沉至终端_提升边缘计算需求.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能行业专题研究AI模型下沉至终端_提升边缘计算需求 (报告出品方/作者:中信建投证券,阎贵成、武超则、汪洁) 一、AI算力将在边端云端有效率分配 边缘排序在万物可视化场景中至关重要 边缘排序就是一种分布式计算架构,将数据处理能力和应用程序部署在更相符数据源的边线,以提高积极响应性,进一步进一步增强安全性和保护用户隐私(参考边缘排序联盟(ECC)的定义)。 所谓边缘,通常涵盖:设备边缘和云边缘。设备边缘:通常涵盖轻而易举的终端设备以及一些异构加速卡、边缘网关等设备。 云边缘:通常就是在设备边缘和中心云之间,比如说就近部署的边缘云节点/边缘IDC。 万物可视化场景中,云端处理存时延较长、成本较低、牵涉到数据隐私等问题,引入边缘排序至关重要。 边缘AI将与云端AI相互补齐 边缘AI将AI能力引入至边缘排序场景。 相较于云端集中的AI资源池运算,边缘AI具有实时积极响应、增加隐私性、持续改进等优势。 边缘AI与云端集中的AI就是相互补齐、相互关联的关系,而非替代关系。 高通公司表态向智能边缘排序公司升级,明确提出混合AI架构 2022年5月的世界智能科技技术创新合作峰会上,高通公司中国区董事长孟朴特别强调了混合AI重要性。在5G朝拜下,随着生成式AI的飞速普及和排序市场需求的日益增长,混合处理的重要性空前凸显。 混合AI架构可以根据模型和查询仍须的复杂度等因素,挑选出相同的方式在云端和边缘终端之间分配并协同处理AI工作功率。 以终端两端AI为中心的混合AI架构中,端的两端设备作为锚点,可以运转数十亿参数的模型,繁琐的模型则可以横贯云端和终端进行运转,根据仍须在用户无缝心智的情况下,使用云端排序。 AI算力预计将有效率分配 我们表示AI算力将综合考量硬件能力、成本等因素,在边端和云端有效率分配,直观涵盖: 边端AI小模型场景:本地跑一些语音识别、图像识别等算法复杂度比较低、对算力建议比较小的AI模型,同时也可以通过API调用云端AI算力/应用领域回去同时同时实现更加多样的AI功能。边端AI大模型场景:轻而易举在边缘两端运转AI大模型。这类场景我们表示可能会率先在手机、PC、智能驾驶、具身智能、元宇宙、工业掌控等自身具备一定算力基础的场景落地。 联邦自学等方法研究在边缘排序架构下进行分布式训练 联邦自学FL(Federated Learning, FL)采用分布式自学架构,并使神经网络模型在移动边缘排序(MEC)架构下可以进行分布式训练,参与自学的客户端无须上传本地数据,只需将训练后的模型参数更新上传,再由边缘服务器节点分解成、更新参数并之下发给参与自学的客户端。由于不仍须共享资源和传输原始数据,采用相近集群的通信结构,FL更适合于移动终端等大规模、极广原产的部署环境。 二、大模型向边缘端的蔓延初见端倪 大模型在边缘端的蔓延的条件:模型压缩+算力提升 大模型向边缘端的蔓延,仍须算法、硬件协同优化,模型压缩和边缘两端排序性能提升就是两小关键。 模型压缩:比如说GPT-175B 模型约存 1750 亿参数,以半精度(FP16)格式排序,至少占到至 320GB存储空间。模型压缩就是大模型向边缘蔓延的其中一个关键条件。排序性能提升:涵盖算力、显示卡、功耗等多方面的硬件综合能力。目前在这两个方向上,我们都可以看到极好的进展预期,大模型在边缘端的蔓延初见端倪。 模型压缩:囊括定量、酿造、剪枝等多种方式 模型压缩主要涵盖Model Quantization模型定量、 knowledge distillation科学知识酿造、Model Pruning模型剪枝、 Low-Rank Adaptation低秩适应环境、weight sharing权值共享资源、architecture search结构追踪等方式。 模型压缩: SparseGPT可以一次性施肥至少50%的稠密性 奥地利科技学院等机构的研究者明确提出SparseGPT,可以在100亿-1000亿参数的模型规模上有效地运作。SparseGPT将剪枝问题精简为一组极其大规模的稀疏重返实例,基于代莱对数稀疏重返解器用做解决分层压缩问题,效率无法在几个小时内使用单个 GPU 在175B参数的GPT 模型上继续执行。SparseGPT 可以在 OPT 家族的 1750 亿参数变量中剪枝至高少于 60% 的扁平分层稠密性。 模型压缩:逐步酿造法用7.7亿参数酿造多于5400亿的大语言模型 5月3日,华盛顿大学与Google一起公布逐步酿造(Distilling step-by-step)法,可以使用更少的数据回去搞出模型的酿造(据论文描述,平均值只仍须之前方法的一半数据,最差的情况只仍须15%的数据就可以达致相近的效果),并可以获得更小规模的模型(最多基数排序原模型小2000倍,即可获得大模型差不

您可能关注的文档

文档评论(0)

小鱼X + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档