网站大量收购独家精品文档,联系QQ:2885784924

世界模型探索空间智能,AI复杂场景落地可期.docx

世界模型探索空间智能,AI复杂场景落地可期.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

世界模型探索空间智能,AI复杂场景落地可期 5

世界模型研究进展迅速,应用端机遇与挑战并存 5

众多厂商推出世界模型,相关领域已展开角逐 10

风险因素 14

表目录

表1:建议关注个股 13

图目录

图1:世界模型研究进展 6

图2:Sora的潜在架构 7

图3:Sora替换视频元素 7

图4:Sora合并视频 7

图5:Sora扩展场景 7

图6:Sora组织和编辑视频 7

图7:视频生成模型时间线梳理 8

图8:机器人世界模型研究进展 9

图9:o3-mini生成的四维超立方体内反弹小球的python代码 9

图10:Grok3生成模拟航天器任务 9

图11:Cosmos优势 10

图12:Cosmos简介 11

图13:Genie2可以在长达一分钟内保持一致性 11

图14:Genie2可生成不同的视角 11

图15:Genie2学会了创建复杂的3D视觉场景。 12

图16:Genie2可创建不同的物理效果(如水、烟) 12

图17:昆仑万维Matrix-Zero 12

图18:推理成本迅速降低 13

世界模型探索空间智能,AI复杂场景落地可期

世界模型研究进展迅速,应用端机遇与挑战并存

长期以来,科学界一直渴望开发一个统一的模型,该模型可以复制其世界的基本动态,以追求通用人工智能(AGI)。OpenAI发布了Sora之后,Sora强大的仿真能力初步理解了物理定律,但关于该模型是否符合世界模型的标准产生了争议。

世界模型尚无统一的定义,观点通常分为理解世界和预测未来。Ha和Schmidhuber的早期工作侧重于抽象外部世界,以深入了解其潜在机制。相比之下,LeCun认为,世界模型不仅应该感知和建模现实世界,而且还应该具备设想可能的未来状态的能力,从而为决策提供信息。英伟达官网的定义为:“世界模型是理解现实世界动态(包括其物理和空间属性)的生成式AI模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。”

据JingtaoDing等撰写的《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》,世界模型已有较长时间的研究,而在Sora发布之后,世界模型获得了更为广泛的关注。

2018年:Haetal.首次系统地将世界模型的概念引入人工智能社区。

2022年:在关于自主机器智能发展的前瞻性文章中,YannLeCun介绍了联合嵌入预测架构(JEPA),这是一个反映人脑结构的框架。JEPA包括一个处理感官数据的感知模块,后跟一个评估这些信息的认知模块,有效地体现了世界模型。该模型允许大脑评估动作并确定最适合实际应用的反应。

2023年:大语言模型的浪潮中,一些工作证明了潜在世界知识的存在。这些模型捕获了直观的知识,使得他们能对现实世界场景做出预测。此外,LLMs能够对外部世界进行建模。

2024年:OpenAI引入了Sora模型,Sora被广泛认为是世界模拟器的视频生成模型,它展示了卓越的建模功能,输入真实世界的视觉数据后模型可以输出视频帧,预测未来世界的演变。

图1:世界模型研究进展

ingtaoDing等《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》,

OpenAI探索了基于视频数据生成模型的大规模训练,在Transformer架构上进一步推出Sora。Sora能够生成一分钟的高保真视频。尽管视频生成模型和世界模型并不能完全等同,但是Sora的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前景的途径。

从技术架构看,Sora被认为是一种基于扩散的视频生成模型。它由三个部分组成:1.一个压缩模型,在时间和空间上将原始视频压缩为潜在表示,以及一个不对称模型,将潜在表示映射回原始视频。2.一种基于Transformer的扩散模型,类似于DiT,在潜在空间中进行训练。3.一种语言模型,它将人工指令编码到嵌入中,并将其注入到生成模型中。

图2:Sora的潜在架构

hengZhu等《IsSoraaWorldSimulator?AComprehensiveSurveyonGeneralWorldModelsandBeyond》

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档