0904-02 阿里巴巴达摩院：通义mPLUG多模态预训练技术与应用.pptx

下载文档

6
0
约4.09千字
约 37页
2025-01-06 发布于上海
举报
版权申诉
保障服务

0904-02 阿里巴巴达摩院：通义mPLUG多模态预训练技术与应用.pptx

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

阿里达摩院通义mPLUG多模态预训练技术与应用

Contents课程目录案例简介/背景1达摩院通义mPLUG多模态预训练模型2多模态mPLUG新零售场景应用3案例总结4微信公众号：零竖质量

案例简介/背景1

通义mPLUG多模态预训练技术上的进展，及在电商场景的应用；mPLUG相关技术ACL2021，EMNLP2022，TOIS接收，并在GitHub和达摩院ModelScope开源，在多模态权威核心榜单上取得SOTA，多模态权威核心的视觉问答挑战赛VQAChallenge2021上取得第一名，首次超越人类基准线。核心亮点：mPLUG多模态权威榜单上取得SOTA，并在ModelScope开源。创新的多模态mPLUG层次模块化新零售应用。案例简介/背景微信公众号：零竖质量

新零售多模态应用背景淘宝主搜多模态召回?拍立淘主体选择5G技术兴起，丰富的多模态内容数据激增，新零售多模态信息处理需求越来越普遍，包括搜索，问答，标题生成等任务微信公众号：零竖质量

新零售多模态应用背景?直播视频问答理解商品图文、视频等内容，在新零售客服领域（店小蜜）构建多源异构多模态问答能力，带来用户体验、转化率提升，并大量节省卖家配置成本；?商品详情页问答微信公众号：零竖质量

多模态预训练研究背景-下游任务ImageCaptionVQA2.0Cross-modalRetrievalVisualGrounding微信公众号：零竖质量

多模态预训练研究背景在2021年之前，AIGC生成的还主要是文字，而新一代的模型可以处理任何内容格式，文字、语音、代码、图像、视频、3D模型、游戏机的按键、机器人的动作等等OpenAIDALL-E2GoogleImagen微信公众号：零竖质量

多模态预训练研究背景-发展趋势结构/预训练任务LXMERT视觉Pixel-BERT特征UNITERViLT数据ALBEFSimVLM模型规模CocaFlamingo微信公众号：零竖质量

达摩院通义mPLUG多模态预训练模型2

通义mPLUG多模态预训练模型-VQA有效视觉语义特征多模态图文预训练领域知识发现和集成微信公众号：零竖质量

通义mPLUG多模态预训练模型-VQAE2E-VLP解决两阶段多模态预训练不灵活、误差传递以及线上时延长的问题，进行视觉语义增强地多模态学习多模态预训练新范式：将End2End多模态预训练统一到Transformer框架，同时支持NLU/NLG任务；在预训练中增加VisualTasks(ObjectDetection,ImageCaption)更好StructureLM解决富文本图片结构化理解问题：图片同时含OCR文本信息，同时建模文本语义和二维空间位置关系在底层二维坐标表示中，采用Cell-levelLayoutEmbeddings，在预训练任务中引入CellPositionPrediction，预测cell在图片中的位置在VQA中引入StructureLM，相比原先最佳从79.4提升至79.8;的融合图文语义；多个多模态NLU/NLG任务取得两阶段方法Comparable的效果，同时提速3倍；微信公众号：零竖质量

通义mPLUG多模态预训练模型-VQA阿里达摩院刷新全球最权威机器视觉问答榜单VQA，并以81.26分的成绩首次超越人类表现（人类成绩：80.83）AchievingHumanParityonVisualQuestionAnswering.TOIS.微信公众号：零竖质量

通义mPLUG多模态预训练模型-模型结构模态融合-Skip-connectedNetwork针对当前融合方式（Connected-attention，Co-atttention）存在的问题：训练和推理Efficiency；模态间InformationAsymmetry问题；提出一种更高效的模态对齐融合新范式Skip-connectedNetwork，通过Inter-layerShortcuts跳过耗时的视觉模块的Self-Attention，使得不同模态可以进行跨层/跨语义融合，也可以缓解梯度消失问题；模态对齐-CLIP对比学习基于大BatchSize的CLIP对比学习，高效的进行不同模态语义对齐；mPLUG:EffectiveandEfficientVision-LanguageLearningbyCross-modalSkip-connections.EMNLP2022.微信公众号：零竖质量

通义mPLUG多模态预训练模型-下游任务mPLUG在VQA，COCOCaption上取得同等数据量的SOTA，超过100倍数据量SimVLM，60倍数据量F

您可能关注的文档

文档评论（0）

零竖质量 + 关注: 实名认证

内容提供者

专注数智化转型升级，致力于研究各行业数智化建设、大数据与数据治理、信息安全、人工智能与元宇宙等业务顶层设计咨询+落地解决方案。微信公众号同名。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

0904-02 阿里巴巴达摩院：通义mPLUG多模态预训练技术与应用.pptx