网站大量收购独家精品文档,联系QQ:2885784924

多模态技术加速,AI商业宏图正启.pptx

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;核心观点;;;按照处理的数据类型数量划分,AI模型可以划分为两类:(1)单模态:只处理1种类型数据,如文本等;(2)多模态:处理

2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显:

输入端:1)提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;2)提高用户体验:推理侧更低的使用门槛和更少的信息损耗。

输出端:更实用。1)可直接生成综合结果,省去多个模型的使用和后期整合;2)更符合真实世界生产生活需要,从而实现更大商业价值。;1.2多模态大模型框架概览;源:论文“Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning”,天翼智库,东吴证券研究所;1.4算法:技术要求更高,LLM发展提供突破口;1.5算力:需求更大,催化产业新机遇;;;2.1视觉模型:数据与算法同步发展,图像生成引领方向;2.1视觉模型:数据与算法同步发展,图像生成引领方向;2.1.1视觉理解:CLIP模型提供重要泛化能力;2.1.1视觉理解:Flamingo推动预训练+微调转向预训练+prompt;2.1.1视觉理解:SAM,用prompt分割一切;? 目前2D图像生成是相对成熟的应用方向,一方面受益于大规模公开数据集和表征模型等基础环节的进步,另;2.1.22D图像生成:开源模型引领生态,闭源应用飞轮加速;2.1.2DALLE3vsMidjourneyvsFireflyvsImagine测试对比;;2.1.3视频生成:可类比图像生成的2021年,期待24年发展;源:W.A.L.T论文,东吴证券研究所;2.1.3视频生成:格局尚早,期待各类玩家共同推动行业前进;;2.1.43D资产生成:在视觉生成模型中相对早期;2.2听觉模型:数据仍有缺口,23年以来技术有所突破;2.2.1语音合成:23年在泛化性、生成质量上取得突破;2.2.2音乐生成:难度更大,期待开源模型推动行业前进;2.3具身智能:相对远期,AI+机器人实现与现实世界交互;;源:东吴证券研究所整理。注:均选用玩家最新模型,红色代表该产品在行业内处于领先地位;3.1.1OpenAI:多模态能力不断增强,技术与应用正循环;;META在图像模型领域的技术积淀相对较多(数据优势+原有算法优势),推出的视觉大模型DINOv2、图像分割SAM等均有较好表现。

META在大模型领域选择开源路线(如Opt是业内首次开源的大规模预训练模型),通过生态建设追赶头部玩家。;源:机器之心,诺亚实验室,AICV与前沿,东吴证券研究所;3.2国内:海外开源有利于国内追赶,技术与应用同步发展;4.投资建议;5.风险提示;免责声明

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档