科技行业前瞻系列专题：科技公司的端侧AI布局.pptx

下载文档

2
0
约4.46千字
约 47页
2024-06-26 发布于北京
举报
版权申诉
保障服务

科技行业前瞻系列专题：科技公司的端侧AI布局.pptx

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录;2;3;1.1.3苹果AI：模型侧：Ferret-UI;Ferret-UI建立在Ferret的基础上。Ferret是一个;Ferret-UI对基本任务的处理流程：UI检测器输出所有检测到的元素，以及每个元素的类型、文本和边界框。这些检测用于为基本任务创建训练样本。对于定位任务，使用所有元素检测来创建一个用于控件列表的样本，而其余任务一次专注于一个元素。将元素分为图标、文本和非图标/文本控件。对于每种类型，创建一个指代样本和一个定位样本。;Ferret-UI在简单任务处理上击败了GPT-4V。但在复杂任务处理上还是不如GPT-4V。

通过精心设计“任意分辨率”（anyres

）以适应各种屏幕宽高比，以及策划包含广泛的基本和高级UI任务的训练样本

，Ferret-UI在引用、定位和推理方面表

现出显著的熟练程度。这些增强能力的引入预示着在众多下游UI应用中或将取得重大进步，从而扩大Ferret-UI在这一领域所能提供的潜在益处。;苹果是较早介入AI计算单元的厂商，早在2017年就在SoC中引入了NPU计算单元，并搭载于iPhone8、iPhone8Plus及iPhoneX上。苹果A17芯片虽然算力为35TOPS，仅相当于高通骁龙8Gen2的AI性能（8Gen2可在手机侧运行10+亿参数的AI小模型），但手机上运行AI模型的效果还需看CPU/GPU/NPU的综合能力，软件生态上的适配优化也是提升用户体验的重要操作。

随着AI布局的深入，苹果将充分发挥在架构设计、iOS生态和软件优化方面的优势，其后劲不容小觑。;苹果自2020年11月开始推出针对Mac和iPad的M系列芯片，M系列芯片至今迭代了4代。

苹果M系列芯片采用统一内存架构设计，允许CPU、GPU及其他协处理器共享和访问相同的内存池，使得并行计算更快速高效。M4芯片支持120GB/s的系统内存带宽，M3芯片最高支持128GB内存，M2Ultra配置高达192GB的统一内存和800GB/s的系统内存带宽，相当于支持了近似容量的显存，甚至可能容纳下LLaMA-65B模型（650亿参数，显存需求是130GB左右）。在苹果统一内存架构下，CPU、GPU和内存直接通过硅中介层连在一起，数据传输带宽极高。M3/M4系列芯片采用ARM架构设计，台积电3nm工艺制造，在能效比方面优势显著。苹果统一内存架构+ARM架构的能效比优势在端侧AI时代极具想象空间。;苹果在其发表的论文《LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory》中详细阐述了如何在DRAM容量有限的设备中高效地运行LLMs。

苹果将模型参数存储在Flash中，按需将其带入DRAM，从而高效地运行超出可用DRAM容量的LLMs。为此，苹果构建了一个推理成本模型，其通过引入两种主要技术，即“窗口化”（通过重用之前激活的神经元战略性地减少数据传输）、以及“行列打包”（针对闪存的顺序数据访问优势，增加了从闪存读取的数据块大小），减少了从闪存传输的数据量、以及以更大更连续的块读取数据

。这些方法使得能运行的模型大小达到可用DRAM容量的两倍，与CPU和GPU中的简单加载方法相比，推理速度分别提高了4-5倍

和20-25倍。这些方法促成了数据负载的显著减少和内存使用效率的提高，对于端侧部署先进的AI模型尤为关键。;;12;13;14;15;目录;高通旨在推动AI更加高效，主要集中在功耗效率，个性化，高效深度学习三个方向。高通的AI平台可向多个行业扩展。

针对功耗效率的优化，主要涵盖了模型设计、压缩、量化、算法、高效硬件、软件工具等。

针对AI个性化，主要涵盖了持续学习、情境感知、长期在线、隐私保护、分布式学习等方面。

针对高效深度学习，主要是通过最少数据进行稳健学习、无监督学习和设备端学习。

高通的AI框架主要涵盖三个层面。感知层：物体检测、语音识别、情境融合。推理层：场景理解、语言理解、行为预测。执行层：;AI工作负载的挑战在于：计算密集度高，复杂的并发，实时运行，长期在线等。

而终端环境受以下限制：对于终端轻薄设计，必须考虑热效率；长时间使用需要较长的电池寿命；存储/内存带宽的限制。;2.3.1模型侧：高通对AI模型的优化方向;对于任何给定的经过训练的神经网络：将权重存储在低位（INT8），以低位进行计算

量化类比：使用较少的位表示图像中的每个像素，在保持模型所需精度的同时降低比特精度。;2.3.3模型侧：高通AI模型量化策略带来的好处;2.3.4模型侧：高通AIMET:革新的AI模型优化工具;高通AIMET包括主流的量化人工智能模型。

INT8

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

科技行业前瞻系列专题：科技公司的端侧AI布局.pptx