科技行业前瞻系列专题:国际巨头的端侧AI布局.pptx

科技行业前瞻系列专题:国际巨头的端侧AI布局.pptx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

科技前瞻系列专题

国际巨头的端侧AI布局;

3三星AI布局;

1.1.1苹果AI:模型侧:MM1

3月苹果正式公布自家的多模态大模型MM1,MM1是一个具有最高300亿参数的多模态LLM系列。MM1由密集模型和混合专家(

MoE)变体组成,具有300亿、70亿、30亿参数等多个版本。MM1不仅在预训练指标中实现最优性能SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

得益于大规模多模态预训练,MM1模型在上下文预测、多图像和思维链推理等方面表现不错。MM1模型在指令调优后展现出强大

的少样本学习能力。在几乎所有基准测试中,苹果的MoE模型比密集模型取得更好的性能,显示MoE进一步扩展的巨大潜力。;

1.1.2苹果AI:模型侧:OpenELM

4月26日,苹果宣布了更大的端侧AI推进,推出全新的开源大语言模型OpenELM。OpenELM包含2.7亿、4.5亿、11亿和30亿个

参数的四种版本,定位于超小规模模型,运行成本更低,可在手机和笔记本电脑等设备上运行文本生成任务。同时,公司开源了OpenELM模型权重和推理代码、数据集、训练日志、神经网络库CoreNet。

OpenELM使用了“分层缩放”策略,来有效分配Transformer模型每一层参数,从而提升准确率。在约10亿参数规模下,

OpenELM与OLMo相比,准确率提高了2.36%,同时需要的预训练token数量减少了50%。

OpenELM的基准测试(数据类型BFloat16)在工作站(配备英特尔i9-13900KFCPU、RTX4090GPU,24GBDDR5内存),以

及M2MaxMacBookPro(64GB内存)运行。;

1.1.3苹果AI:模型侧:Ferret-UI

4月8日,苹果展示了多模态模型Ferret-UI。Ferret-UI

系统可以理解手机屏幕上的应用程序内容,专为增强

对移动端UI屏幕的理解而定制,其配备了引用(

referring)、定位(grounding)和推理(

reasoning)功能。Ferret-UI具备了解决现有大部分

通用多模态大模型所缺乏的理解用户界面(UI)屏幕

并与其有效交互的能力。Ferret-UI与OpenAI近期发

布的GPT-4o、谷歌近期发布的Gemini1.5Pro在功能

上异曲同工。

Ferret-UI可执行从基本到复杂任务等11种任务。它能

在移动UI屏幕上使用灵活的输入格式(点、框、涂鸦

)执行指???任务(例如控件分类、图标识别、OCR)

和定位任务(例如查找控件、查找图标、查找文本、

控件列表)。这些基本任务为模型提供了丰富的视觉

和空间知识,使其能在粗略和精细级别(例如各种图

标或文本元素之间)区分UI类型。这些基础知识对于

执行更高级的任务至关重要。具体来说,Ferret-UI不

仅能在详细描述和感知对话中讨论视觉元素,还可在

交互对话中提出面向目标的动作,并通过功能推理推

断出屏幕的整体功能。;

Ferret-UI建立在Ferret的基础上。Ferret是一个

MLLM,在不同形状和细节水平的自然图像中实现空间参考和基础。无论是点、框还是任何自由形式的形状,它都可以解释相应区域或对象并与之交互。Ferret包含一个预训练的视觉编码器(例如CLIP-ViT-L/14)和一个DecoderOnly的语言模型(例如Vicuna)。此外,Ferret还采用了一种独特的混合表示技术,该技术将指定区域转换为适合LLM处理的格式。本质上,空间感知视觉采样器旨在熟练地管理不同稀疏度级别的区域形状的连续特征。

虽然Ferret-UI-base是基于Ferret的架构,但

Ferret-UI-anyres包含额外的细粒度图像功能。特别是,预训练的图像编码器和投影层为整个屏幕生成图像特征。对于基于原始图像长宽比获得的每个子图像,都会生成额外的图像特征。对于具有区域参考的文本,视觉采样器会生成相应的区域连续要素。LLM使用全图像表示、子图像表示、区域特征和文本嵌入来生成响应。;

Ferret-UI对基本任务的处理流程:UI检测器输出所有检测到

的元素,以及每个元素的类型、文本和边界框。这些检测用

于为基本任务创建训练样本。对于定位任务,使用

您可能关注的文档

文档评论(0)

沧海一粟2020 + 关注
实名认证
内容提供者

文不能提笔控萝莉,武不能骑马战人妻,入佛门则六根不净,入商道则狼性不足,想想还是做文字民工!

1亿VIP精品文档

相关文档