- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
行业多模态大模型训推加速落地思考
演讲人:谢榛
阿里云/行业多模态模型负责人,高级算法专家
多模态模型现状概述
目录
目录
行业多模态模型迭代范式
多模态训推加速技术
总结展望
04
多模态模型现状概述
多模态大模型
多模态大模型是指在一个统一架构下,集成了多种不同类型数据处理能力的大型神经网络模型,能够同时处理多种数据模态
多模态生成万相/HunmanAIGC/CosyVoice绘声
多模态生成
万相/HunmanAIGC/CosyVoice
绘声:高拟人化,具备不同音色与情绪
绘色:图片和视频、人物和商品具备可控生成能力
大语言模型
Qwen
参数:1.5B、7B、72B、xxxB架构:Densy、MoE
Qwen-VL/Audio
看见且看懂:动态分辨率、OCR增强、视觉内容解析
听见且听懂:多语言理解、音乐鉴赏、情感分析等能力
长上下文窗口、代码、数学、多语言
行业业务中,多模态能力典型需求场景
多模态检索支持图搜图
多模态检索
支持图搜图、文搜图等多种场景下,基于多模态知识库的检索。
支持富模态知识文档包含富文本、图片、表格、视频、音频等模态内容的解析、知识加工
多模态内容生成多模态内容理解
多模态内容生成
文本描述生成图像,图像生成图像
文本描述生成视频内容支持图像、视频、语音等多种模态的内容理解
文本描述生成视频内容
多模态大模型MLLM/VLM
多模态典型能力
livechatCodeInterpreter
OperateaMobilePhoneOperateaRoboticArm
多模态大模型MLLM/VLM
多模态大模型VS单模态(小)模型
多模态大模型基于通用的多模态-语言基础底座,多模态表征/统一任务编码,实现不同任务之间知识共享,泛化性好,能够应对复杂开放的应用场景。
l核心优势:泛化性强、鲁棒性好、通用能力强且不依赖训练数据分布、能够处理难例
适用场景能否开放
感知对象是否需要明确
运算资源要求
实时性
能否理解概念
训练成本
部署成本
迭代扩展成本
泛化性
适用场景
视觉(小)模型
否
需要
低
高
否
低
低
高
弱
应用场景固定、感知对象明确、运算资源有限、实时性要求高
多模态大模型
能
不需要
中高
中低
能
高
高
中低
强
应用场景复杂开放、感知对象不
固定、需要一定的概念理解、实
时性要求不高
多模态概述及架构发展
ASurveyofLLMASurveyonMultimodalLargeLanguageModels
2024.02.12024.2-Gemini
2024.02.12024.2-
Meteor
Chameleon
InternVL1.5
Grok-1.5V
InternLM-
XComposer2-4KHDFerret-UI
CuMo,Ovis
……
Claude-3.5Sonnet
2024.06.21
2024.6
EVLM
VILA^2
Llava-NextVideo
PaliGemma
InternvLInternVL2
InternLM-
XComposer2.5
SOLO,IDA-VLM,MoME,SlowFast-LLaMA……
Grok-2
2024.08.13
2024.8
BaichuanOmni
Mini-InternVL
CAria
CAria
Emu3NVLM
Emu3
mPLUG-DocOwl2
2024.11-12
2024.11-12
Pixtral,Ferret-UI2
……
MoE-LLaVA
MeituanMoblieVLMV2
LWM
DeepSeek-VL
Mini-Gemini
MM1
LLaVA-Next,ALLaVA
2024.4-5
GPT-4o
2024.05.13
2024.7
Parrot
GLM-4V
VideoLLaMA2
Phi-3-Vision
Llava-Next
Interleave
Cambrain-1EVE,LongVA
……
MiniCPM-V
Llava-NextOneVision
mPLU
您可能关注的文档
- A股市场2025年度投资策略:拥抱高质量发展.docx
- 安联:2025-2026全球经济展望:逆势而行?+Global+Economic+Outlook+2025-26:Defying+gravity?.docx
- 电新行业(风光储)2025年度策略:需求侧稳健,供给侧发力.docx
- 多租户下的算力分配和调度实践-贝壳找房+王天庆.docx
- 构建企业级+RAG+系统的创新实践-阿里云+费跃.docx
- 国博电子_+高价值组件核心供应商,有望受益卫星互联网大规模建设.docx
- 化妆品行业2025年度投资策略:国货替代逻辑持续兑现,弱复苏背景下凸显强α.docx
- 如何利用+Agent+解决企业数据分析与洞察的经验探索-数势科技+李飞.docx
- 如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛.docx
- 使用多模态模型构建适用于+LLM+搜索的数据-矩阵起源+赵晨阳.docx
文档评论(0)