谢榛-行业多模态大模型训推加速落地思考.docxVIP

  • 0
  • 0
  • 约7.8千字
  • 约 25页
  • 2026-03-23 发布于浙江
  • 举报

谢榛-行业多模态大模型训推加速落地思考.docx

行业多模态大模型训推加速落地思考演讲人:谢榛

行业多模态大模型训推加

速落地思考

演讲人:谢榛

阿里云/行业多模态模型负责人,高级算法专家

多模态模型现状概述01行业多模态模型迭代范式目录02多模态训推加速技术03

多模态模型现状概述

01

行业多模态模型迭代范式

目录

02

多模态训推加速技术

03

总结展望

04

多模态模型现状概述

多模态模型现状概述

多模态大模型多模态大模型是指在一个统一架构下,集成了多种不同类型数据处理能力的大型神经网络模型,能够同时处理多种数据模态多模态生成万相/HunmanAIGC/CosyVoice多模态理解Qwen-VL/Audio大语言模型Qwen参数:1.5B、7B、72B、xxxB架构:Densy、MoE长上下文窗口、代码、数学、多语言看见且看懂:动态分辨率、OCR增强、视觉内容解析听见且听懂:多语言理解、音乐鉴赏、情感分析等能力绘声:高拟人化,具备不同音色与情绪绘色:图片和视频、人物和商品具备可控生成能力行业业务中,多模态能力典型需求场景多模态知识加工支持富模态知识文档包含富文本、图片、表格、视频、音频等多模态检索支持图搜图、文搜图等多种场景下,基于多模态知识库的检索。模态内容的解析、知识加工多模态内容生成文本描述生成图像,图像生成图像文本描述生成视频内容

多模态大模型

多模态大模型是指在一个统一架构下,集成了多种不同类型数据处理能力

文档评论(0)

1亿VIP精品文档

相关文档