科技行业前瞻系列专题:科技公司的端侧AI布局.pptx

科技行业前瞻系列专题:科技公司的端侧AI布局.pptx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目 录;2;3;1.1.3苹果AI:模型侧:Ferret-UI;Ferret-UI建立在Ferret的基础上。Ferret是一个;Ferret-UI对基本任务的处理流程:UI检测器输出所有检测到的元素,以及每个元素的类型、文本和边界框。这些检测用于为基本任务创建训练样本。对于定位任务,使用所有元素检测来创建一个用于控件列表的样本,而其余任务一次专注于一个元素。将元素分为图标、文本和非图标/文本控件。对于每种类型,创建一个指代样本和一个定位样本。;Ferret-UI在简单任务处理上击败了GPT-4V。但在复杂任务处理上还是不如GPT-4V。

通过精心设计“任意分辨率”(anyres

)以适应各种屏幕宽高比,以及策划包含广泛的基本和高级UI任务的训练样本

,Ferret-UI在引用、定位和推理方面表

现出显著的熟练程度。这些增强能力的引入预示着在众多下游UI应用中或将取得重大进步,从而扩大Ferret-UI在这一领域所能提供的潜在益处。;苹果是较早介入AI计算单元的厂商,早在2017年就在SoC中引入了NPU计算单元,并搭载于iPhone8、iPhone8Plus及iPhoneX上。苹果A17芯片虽然算力为35TOPS,仅相当于高通骁龙8Gen2的AI性能(8Gen2可在手机侧运行10+亿参数的AI小模型),但手机上运行AI模型的效果还需看CPU/GPU/NPU的综合能力,软件生态上的适配优化也是提升用户体验的重要操作。

随着AI布局的深入,苹果将充分发挥在架构设计、iOS生态和软件优化方面的优势,其后劲不容小觑。;苹果自2020年11月开始推出针对Mac和iPad的M系列芯片,M系列芯片至今迭代了4代。

苹果M系列芯片采用统一内存架构设计,允许CPU、GPU及其他协处理器共享和访问相同的内存池,使得并行计算更快速高效。M4芯片支持120GB/s的系统内存带宽,M3芯片最高支持128GB内存,M2Ultra配置高达192GB的统一内存和800GB/s的系统内存带宽,相当于支持了近似容量的显存,甚至可能容纳下LLaMA-65B模型(650亿参数,显存需求是130GB左右)。在苹果统一内存架构下,CPU、GPU和内存直接通过硅中介层连在一起,数据传输带宽极高。M3/M4系列芯片采用ARM架构设计,台积电3nm工艺制造,在能效比方面优势显著。苹果统一内存架构+ARM架构的能效比优势在端侧AI时代极具想象空间。;苹果在其发表的论文《LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory》中详细阐述了如何在DRAM容量有限的设备中高效地运行LLMs。

苹果将模型参数存储在Flash中,按需将其带入DRAM,从而高效地运行超出可用DRAM容量的LLMs。为此,苹果构建了一个推理成本模型,其通过引入两种主要技术,即“窗口化”(通过重用之前激活的神经元战略性地减少数据传输)、以及“行列打包”(针对闪存的顺序数据访问优势,增加了从闪存读取的数据块大小),减少了从闪存传输的数据量、以及以更大更连续的块读取数据

。这些方法使得能运行的模型大小达到可用DRAM容量的两倍,与CPU和GPU中的简单加载方法相比,推理速度分别提高了4-5倍

和20-25倍。这些方法促成了数据负载的显著减少和内存使用效率的提高,对于端侧部署先进的AI模型尤为关键。;;12;13;14;15;目 录;高通旨在推动AI更加高效,主要集中在功耗效率,个性化,高效深度学习三个方向。高通的AI平台可向多个行业扩展。

针对功耗效率的优化,主要涵盖了模型设计、压缩、量化、算法、高效硬件、软件工具等。

针对AI个性化,主要涵盖了持续学习、情境感知、长期在线、隐私保护、分布式学习等方面。

针对高效深度学习,主要是通过最少数据进行稳健学习、无监督学习和设备端学习。

高通的AI框架主要涵盖三个层面。感知层:物体检测、语音识别、情境融合。推理层:场景理解、语言理解、行为预测。执行层:;AI工作负载的挑战在于:计算密集度高,复杂的并发,实时运行,长期在线等。

而终端环境受以下限制:对于终端轻薄设计,必须考虑热效率;长时间使用需要较长的电池寿命;存储/内存带宽的限制。;2.3.1模型侧:高通对AI模型的优化方向;对于任何给定的经过训练的神经网络:将权重存储在低位(INT8),以低位进行计算

量化类比:使用较少的位表示图像中的每个像素,在保持模型所需精度的同时降低比特精度。;2.3.3模型侧:高通AI模型量化策略带来的好处;2.3.4模型侧:高通AIMET:革新的AI模型优化工具;高通AIMET包括主流的量化人工智能模型。

INT8

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档