世界模型探索空间智能，AI复杂场景落地可期.pdf

下载文档

2
0
约1.03万字
约 11页
2025-03-11 发布于北京
举报
版权申诉
保障服务

世界模型探索空间智能，AI复杂场景落地可期.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

世界模型探索空间智能，AI复杂场景落地可期5

世界模型研究进展迅速，应用端机遇与挑战并存5

众多厂商推出世界模型，相关领域已展开角逐10

风险因素14

表目录

表1：建议关注个股13

图目录

图1：世界模型研究进展6

图2：Sora的潜在架构7

图3：Sora替换视频元素7

图4：Sora合并视频7

图5：Sora扩展场景7

图6：Sora组织和编辑视频7

图7：视频生成模型时间线梳理8

图8：机器人世界模型研究进展9

图9：o3-mini生成的四维超立方体内反弹小球的python代码9

图10：Grok3生成模拟航天器任务9

图11：Cosmos优势10

图12：Cosmos简介11

图13：Genie2可以在长达一分钟内保持一致性11

图14：Genie2可生成不同的视角11

图15：Genie2学会了创建复杂的3D视觉场景。12

图16：Genie2可创建不同的物理效果（如水、烟）12

图17：昆仑万维Matrix-Zero12

图18：推理成本迅速降低13

请阅读最后一页免责声明及信息披露4

世界模型探索空间智能，AI复杂场景落地可期

世界模型研究进展迅速，应用端机遇与挑战并存

长期以来，科学界一直渴望开发一个统一的模型，该模型可以复制其世界的基本动态，以追

求通用人工智能（AGI）。OpenAI发布了Sora之后，Sora强大的仿真能力初步理解了物

理定律，但关于该模型是否符合世界模型的标准产生了争议。

世界模型尚无统一的定义，观点通常分为理解世界和预测未来。Ha和Schmidhuber的早

期工作侧重于抽象外部世界，以深入了解其潜在机制。相比之下，LeCun认为，世界模型不

仅应该感知和建模现实世界，而且还应该具备设想可能的未来状态的能力，从而为决策提供

信息。英伟达官网的定义为：“世界模型是理解现实世界动态(包括其物理和空间属性)的

生成式AI模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习，它

们能够理解现实世界环境的物理特性，从而对运动、应力以及感官数据中的空间关系等动态

进行表示和预测。”

据JingtaoDing等撰写的《UnderstandingWorldorPredictingFuture?A

ComprehensiveSurveyofWorldModels》，世界模型已有较长时间的研究，而在Sora

发布之后，世界模型获得了更为广泛的关注。

⚫2018年：Haetal.首次系统地将世界模型的概念引入人工智能社区。

⚫2022年：在关于自主机器智能发展的前瞻性文章中，YannLeCun介绍了联合嵌入预

测架构（JEPA），这是一个反映人脑结构的框架。JEPA包括一个处理感官数据的感

知模块，后跟一个评估这些信息的认知模块，有效地体现了世界模型。该模型允许大脑

评估动作并确定最适合实际应用的反应。

⚫2023年：大语言模型的浪潮中，一些工作证明了潜在世界知识的存在。这些模型捕获

了直观的知识，使得他们能对现实世界场景做出预测。此外，LLMs能够对外部世界

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

世界模型探索空间智能，AI复杂场景落地可期.pdf