世界模型探索空间智能，AI复杂场景落地可期.docx

下载文档

0
0
约6.54千字
约 11页
2025-03-15 发布于北京
举报
版权申诉
保障服务

世界模型探索空间智能，AI复杂场景落地可期.docx

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

世界模型探索空间智能，AI复杂场景落地可期 5

世界模型研究进展迅速，应用端机遇与挑战并存 5

众多厂商推出世界模型，相关领域已展开角逐 10

风险因素 14

表目录

表1：建议关注个股 13

图目录

图1：世界模型研究进展 6

图2：Sora的潜在架构 7

图3：Sora替换视频元素 7

图4：Sora合并视频 7

图5：Sora扩展场景 7

图6：Sora组织和编辑视频 7

图7：视频生成模型时间线梳理 8

图8：机器人世界模型研究进展 9

图9：o3-mini生成的四维超立方体内反弹小球的python代码 9

图10：Grok3生成模拟航天器任务 9

图11：Cosmos优势 10

图12：Cosmos简介 11

图13：Genie2可以在长达一分钟内保持一致性 11

图14：Genie2可生成不同的视角 11

图15：Genie2学会了创建复杂的3D视觉场景。 12

图16：Genie2可创建不同的物理效果（如水、烟） 12

图17：昆仑万维Matrix-Zero 12

图18：推理成本迅速降低 13

世界模型探索空间智能，AI复杂场景落地可期

世界模型研究进展迅速，应用端机遇与挑战并存

长期以来，科学界一直渴望开发一个统一的模型，该模型可以复制其世界的基本动态，以追求通用人工智能（AGI）。OpenAI发布了Sora之后，Sora强大的仿真能力初步理解了物理定律，但关于该模型是否符合世界模型的标准产生了争议。

世界模型尚无统一的定义，观点通常分为理解世界和预测未来。Ha和Schmidhuber的早期工作侧重于抽象外部世界，以深入了解其潜在机制。相比之下，LeCun认为，世界模型不仅应该感知和建模现实世界，而且还应该具备设想可能的未来状态的能力，从而为决策提供信息。英伟达官网的定义为：“世界模型是理解现实世界动态(包括其物理和空间属性)的生成式AI模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习，它们能够理解现实世界环境的物理特性，从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。”

据JingtaoDing等撰写的《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》，世界模型已有较长时间的研究，而在Sora发布之后，世界模型获得了更为广泛的关注。

2018年：Haetal.首次系统地将世界模型的概念引入人工智能社区。

2022年：在关于自主机器智能发展的前瞻性文章中，YannLeCun介绍了联合嵌入预测架构（JEPA），这是一个反映人脑结构的框架。JEPA包括一个处理感官数据的感知模块，后跟一个评估这些信息的认知模块，有效地体现了世界模型。该模型允许大脑评估动作并确定最适合实际应用的反应。

2023年：大语言模型的浪潮中，一些工作证明了潜在世界知识的存在。这些模型捕获了直观的知识，使得他们能对现实世界场景做出预测。此外，LLMs能够对外部世界进行建模。

2024年：OpenAI引入了Sora模型，Sora被广泛认为是世界模拟器的视频生成模型，它展示了卓越的建模功能，输入真实世界的视觉数据后模型可以输出视频帧，预测未来世界的演变。

图1：世界模型研究进展

ingtaoDing等《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》，

OpenAI探索了基于视频数据生成模型的大规模训练，在Transformer架构上进一步推出Sora。Sora能够生成一分钟的高保真视频。尽管视频生成模型和世界模型并不能完全等同，但是Sora的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前景的途径。

从技术架构看，Sora被认为是一种基于扩散的视频生成模型。它由三个部分组成：1.一个压缩模型，在时间和空间上将原始视频压缩为潜在表示，以及一个不对称模型，将潜在表示映射回原始视频。2.一种基于Transformer的扩散模型，类似于DiT，在潜在空间中进行训练。3.一种语言模型，它将人工指令编码到嵌入中，并将其注入到生成模型中。

图2：Sora的潜在架构

hengZhu等《IsSoraaWorldSimulator?AComprehensiveSurveyonGeneralWorldModelsandBeyond》