多模态技术加速，AI商业宏图正启.pptx

下载文档

8
0
约1.26千字
约 39页
2024-01-11 发布于北京
举报
版权申诉
保障服务

多模态技术加速，AI商业宏图正启.pptx

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;核心观点;;;按照处理的数据类型数量划分，AI模型可以划分为两类：（1）单模态：只处理1种类型数据，如文本等；（2）多模态：处理

2种及以上数据，可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态，多模态大模型在输入输出端的优势明显：

输入端：1）提升模型能力：高质量语言数据存量有限，且不同模态包含的信息具有互补性，多元的训练数据类型有助于提升通用大模型能力；2）提高用户体验：推理侧更低的使用门槛和更少的信息损耗。

输出端：更实用。1）可直接生成综合结果，省去多个模型的使用和后期整合；2）更符合真实世界生产生活需要，从而实现更大商业价值。;1.2多模态大模型框架概览;源：论文“Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning”，天翼智库，东吴证券研究所;1.4算法：技术要求更高，LLM发展提供突破口;1.5算力：需求更大，催化产业新机遇;;;2.1视觉模型：数据与算法同步发展，图像生成引领方向;2.1视觉模型：数据与算法同步发展，图像生成引领方向;2.1.1视觉理解：CLIP模型提供重要泛化能力;2.1.1视觉理解：Flamingo推动预训练+微调转向预训练+prompt;2.1.1视觉理解：SAM，用prompt分割一切;? 目前2D图像生成是相对成熟的应用方向，一方面受益于大规模公开数据集和表征模型等基础环节的进步，另;2.1.22D图像生成：开源模型引领生态，闭源应用飞轮加速;2.1.2DALLE3vsMidjourneyvsFireflyvsImagine测试对比;;2.1.3视频生成：可类比图像生成的2021年，期待24年发展;源：W.A.L.T论文，东吴证券研究所;2.1.3视频生成：格局尚早，期待各类玩家共同推动行业前进;;2.1.43D资产生成：在视觉生成模型中相对早期;2.2听觉模型：数据仍有缺口，23年以来技术有所突破;2.2.1语音合成：23年在泛化性、生成质量上取得突破;2.2.2音乐生成：难度更大，期待开源模型推动行业前进;2.3具身智能：相对远期，AI+机器人实现与现实世界交互;;源：东吴证券研究所整理。注：均选用玩家最新模型，红色代表该产品在行业内处于领先地位;3.1.1OpenAI：多模态能力不断增强，技术与应用正循环;;META在图像模型领域的技术积淀相对较多（数据优势+原有算法优势），推出的视觉大模型DINOv2、图像分割SAM等均有较好表现。

META在大模型领域选择开源路线（如Opt是业内首次开源的大规模预训练模型），通过生态建设追赶头部玩家。;源：机器之心，诺亚实验室，AICV与前沿，东吴证券研究所;3.2国内：海外开源有利于国内追赶，技术与应用同步发展;4.投资建议;5.风险提示;免责声明

多模态技术加速，AI商业宏图正启.pptx 原文免费试下载