网站大量收购闲置独家精品文档,联系QQ:2885784924

行业多模态大模型训推加速落地思考-阿里云+谢榛.docx

行业多模态大模型训推加速落地思考-阿里云+谢榛.docx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

行业多模态大模型训推加速落地思考

演讲人:谢榛

阿里云/行业多模态模型负责人,高级算法专家

多模态模型现状概述

目录

目录

行业多模态模型迭代范式

多模态训推加速技术

总结展望

04

多模态模型现状概述

多模态大模型

多模态大模型是指在一个统一架构下,集成了多种不同类型数据处理能力的大型神经网络模型,能够同时处理多种数据模态

多模态生成万相/HunmanAIGC/CosyVoice绘声

多模态生成

万相/HunmanAIGC/CosyVoice

绘声:高拟人化,具备不同音色与情绪

绘色:图片和视频、人物和商品具备可控生成能力

大语言模型

Qwen

参数:1.5B、7B、72B、xxxB架构:Densy、MoE

Qwen-VL/Audio

看见且看懂:动态分辨率、OCR增强、视觉内容解析

听见且听懂:多语言理解、音乐鉴赏、情感分析等能力

长上下文窗口、代码、数学、多语言

行业业务中,多模态能力典型需求场景

多模态检索支持图搜图

多模态检索

支持图搜图、文搜图等多种场景下,基于多模态知识库的检索。

支持富模态知识文档包含富文本、图片、表格、视频、音频等模态内容的解析、知识加工

多模态内容生成多模态内容理解

多模态内容生成

文本描述生成图像,图像生成图像

文本描述生成视频内容支持图像、视频、语音等多种模态的内容理解

文本描述生成视频内容

多模态大模型MLLM/VLM

多模态典型能力

livechatCodeInterpreter

OperateaMobilePhoneOperateaRoboticArm

多模态大模型MLLM/VLM

多模态大模型VS单模态(小)模型

多模态大模型基于通用的多模态-语言基础底座,多模态表征/统一任务编码,实现不同任务之间知识共享,泛化性好,能够应对复杂开放的应用场景。

l核心优势:泛化性强、鲁棒性好、通用能力强且不依赖训练数据分布、能够处理难例

适用场景能否开放

感知对象是否需要明确

运算资源要求

实时性

能否理解概念

训练成本

部署成本

迭代扩展成本

泛化性

适用场景

视觉(小)模型

需要

应用场景固定、感知对象明确、运算资源有限、实时性要求高

多模态大模型

不需要

中高

中低

中低

应用场景复杂开放、感知对象不

固定、需要一定的概念理解、实

时性要求不高

多模态概述及架构发展

ASurveyofLLMASurveyonMultimodalLargeLanguageModels

2024.02.12024.2-Gemini

2024.02.12024.2-

Meteor

Chameleon

InternVL1.5

Grok-1.5V

InternLM-

XComposer2-4KHDFerret-UI

CuMo,Ovis

……

Claude-3.5Sonnet

2024.06.21

2024.6

EVLM

VILA^2

Llava-NextVideo

PaliGemma

InternvLInternVL2

InternLM-

XComposer2.5

SOLO,IDA-VLM,MoME,SlowFast-LLaMA……

Grok-2

2024.08.13

2024.8

BaichuanOmni

Mini-InternVL

CAria

CAria

Emu3NVLM

Emu3

mPLUG-DocOwl2

2024.11-12

2024.11-12

Pixtral,Ferret-UI2

……

MoE-LLaVA

MeituanMoblieVLMV2

LWM

DeepSeek-VL

Mini-Gemini

MM1

LLaVA-Next,ALLaVA

2024.4-5

GPT-4o

2024.05.13

2024.7

Parrot

GLM-4V

VideoLLaMA2

Phi-3-Vision

Llava-Next

Interleave

Cambrain-1EVE,LongVA

……

MiniCPM-V

Llava-NextOneVision

mPLU

您可能关注的文档

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档