2026年--多模态文档大模型mPLUG-DocOwl-AI应用.pptxVIP

  • 1
  • 0
  • 约1.42千字
  • 约 56页
  • 2026-02-27 发布于江苏
  • 举报

2026年--多模态文档大模型mPLUG-DocOwl-AI应用.pptx

多模态文档大模型mPLUG-DocOwl

目录CONTENTS多模态文档大模型背景mPLUG-DocOwl系列工作mPLUG-DocOwl开源实战总结与展望

PART01多模态文档大模型背景

多模态文档大模型背景富含文字的图片(简称“文档图片”)在生活中无处不在!

多模态文档大模型背景RevolutionizingDocumentAIwithMultimodalDocumentFoundationModels

多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力,例如GPT4V

多模态文档大模型背景多模态大模型模型(MLLM)主要关注于一般图片的对话和问答mPLUG-Owl LLaVA InstructBLIP

多模态文档大模型背景由于预训练中存在富含文字的图片,他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力

多模态文档大模型挑战

PART01多模态文档大模型背景

mPLUG-DocOwl

mPLUG-DocOwl模型结构形状适应的切图模块1.??????????={??×??,??×??,…??×????,??×??,??×??,…,??×????,…????×??}2.同时考虑形状和??进?grid选择)每个子图在原图中第几行第几列

mPLUG-DocOwl模型训练:训练任务

mPL

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档