人工智能行业专题研究AI模型下沉至终端_提升边缘计算需求.docxVIP

下载本文档

1
0
约5.3千字
约 34页
2023-07-16 发布于重庆
举报
版权申诉

人工智能行业专题研究AI模型下沉至终端_提升边缘计算需求.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能行业专题研究AI模型下沉至终端_提升边缘计算需求（报告出品方/作者：中信建投证券，阎贵成、武超则、汪洁）一、AI算力将在边端云端有效率分配边缘排序在万物可视化场景中至关重要边缘排序就是一种分布式计算架构，将数据处理能力和应用程序部署在更相符数据源的边线，以提高积极响应性，进一步进一步增强安全性和保护用户隐私（参考边缘排序联盟（ECC）的定义）。所谓边缘，通常涵盖：设备边缘和云边缘。设备边缘：通常涵盖轻而易举的终端设备以及一些异构加速卡、边缘网关等设备。云边缘：通常就是在设备边缘和中心云之间，比如说就近部署的边缘云节点/边缘IDC。万物可视化场景中，云端处理存时延较长、成本较低、牵涉到数据隐私等问题，引入边缘排序至关重要。边缘AI将与云端AI相互补齐边缘AI将AI能力引入至边缘排序场景。相较于云端集中的AI资源池运算，边缘AI具有实时积极响应、增加隐私性、持续改进等优势。边缘AI与云端集中的AI就是相互补齐、相互关联的关系，而非替代关系。高通公司表态向智能边缘排序公司升级，明确提出混合AI架构 2022年5月的世界智能科技技术创新合作峰会上，高通公司中国区董事长孟朴特别强调了混合AI重要性。在5G朝拜下，随着生成式AI的飞速普及和排序市场需求的日益增长，混合处理的重要性空前凸显。混合AI架构可以根据模型和查询仍须的复杂度等因素，挑选出相同的方式在云端和边缘终端之间分配并协同处理AI工作功率。以终端两端AI为中心的混合AI架构中，端的两端设备作为锚点，可以运转数十亿参数的模型，繁琐的模型则可以横贯云端和终端进行运转，根据仍须在用户无缝心智的情况下，使用云端排序。 AI算力预计将有效率分配我们表示AI算力将综合考量硬件能力、成本等因素，在边端和云端有效率分配，直观涵盖：边端AI小模型场景：本地跑一些语音识别、图像识别等算法复杂度比较低、对算力建议比较小的AI模型，同时也可以通过API调用云端AI算力/应用领域回去同时同时实现更加多样的AI功能。边端AI大模型场景：轻而易举在边缘两端运转AI大模型。这类场景我们表示可能会率先在手机、PC、智能驾驶、具身智能、元宇宙、工业掌控等自身具备一定算力基础的场景落地。联邦自学等方法研究在边缘排序架构下进行分布式训练联邦自学FL（Federated Learning, FL）采用分布式自学架构，并使神经网络模型在移动边缘排序（MEC）架构下可以进行分布式训练，参与自学的客户端无须上传本地数据，只需将训练后的模型参数更新上传，再由边缘服务器节点分解成、更新参数并之下发给参与自学的客户端。由于不仍须共享资源和传输原始数据，采用相近集群的通信结构，FL更适合于移动终端等大规模、极广原产的部署环境。二、大模型向边缘端的蔓延初见端倪大模型在边缘端的蔓延的条件：模型压缩+算力提升大模型向边缘端的蔓延，仍须算法、硬件协同优化，模型压缩和边缘两端排序性能提升就是两小关键。模型压缩：比如说GPT-175B 模型约存 1750 亿参数，以半精度（FP16）格式排序，至少占到至 320GB存储空间。模型压缩就是大模型向边缘蔓延的其中一个关键条件。排序性能提升：涵盖算力、显示卡、功耗等多方面的硬件综合能力。目前在这两个方向上，我们都可以看到极好的进展预期，大模型在边缘端的蔓延初见端倪。模型压缩：囊括定量、酿造、剪枝等多种方式模型压缩主要涵盖Model Quantization模型定量、 knowledge distillation科学知识酿造、Model Pruning模型剪枝、 Low-Rank Adaptation低秩适应环境、weight sharing权值共享资源、architecture search结构追踪等方式。模型压缩： SparseGPT可以一次性施肥至少50%的稠密性奥地利科技学院等机构的研究者明确提出SparseGPT，可以在100亿-1000亿参数的模型规模上有效地运作。SparseGPT将剪枝问题精简为一组极其大规模的稀疏重返实例，基于代莱对数稀疏重返解器用做解决分层压缩问题，效率无法在几个小时内使用单个 GPU 在175B参数的GPT 模型上继续执行。SparseGPT 可以在 OPT 家族的 1750 亿参数变量中剪枝至高少于 60% 的扁平分层稠密性。模型压缩：逐步酿造法用7.7亿参数酿造多于5400亿的大语言模型 5月3日，华盛顿大学与Google一起公布逐步酿造（Distilling step-by-step）法，可以使用更少的数据回去搞出模型的酿造（据论文描述，平均值只仍须之前方法的一半数据，最差的情况只仍须15%的数据就可以达致相近的效果），并可以获得更小规模的模型（最多基数排序原模型小2000倍，即可获得大模型差不