- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
世界模型探索空间智能,AI复杂场景落地可期 5
世界模型研究进展迅速,应用端机遇与挑战并存 5
众多厂商推出世界模型,相关领域已展开角逐 10
风险因素 14
表目录
表1:建议关注个股 13
图目录
图1:世界模型研究进展 6
图2:Sora的潜在架构 7
图3:Sora替换视频元素 7
图4:Sora合并视频 7
图5:Sora扩展场景 7
图6:Sora组织和编辑视频 7
图7:视频生成模型时间线梳理 8
图8:机器人世界模型研究进展 9
图9:o3-mini生成的四维超立方体内反弹小球的python代码 9
图10:Grok3生成模拟航天器任务 9
图11:Cosmos优势 10
图12:Cosmos简介 11
图13:Genie2可以在长达一分钟内保持一致性 11
图14:Genie2可生成不同的视角 11
图15:Genie2学会了创建复杂的3D视觉场景。 12
图16:Genie2可创建不同的物理效果(如水、烟) 12
图17:昆仑万维Matrix-Zero 12
图18:推理成本迅速降低 13
世界模型探索空间智能,AI复杂场景落地可期
世界模型研究进展迅速,应用端机遇与挑战并存
长期以来,科学界一直渴望开发一个统一的模型,该模型可以复制其世界的基本动态,以追求通用人工智能(AGI)。OpenAI发布了Sora之后,Sora强大的仿真能力初步理解了物理定律,但关于该模型是否符合世界模型的标准产生了争议。
世界模型尚无统一的定义,观点通常分为理解世界和预测未来。Ha和Schmidhuber的早期工作侧重于抽象外部世界,以深入了解其潜在机制。相比之下,LeCun认为,世界模型不仅应该感知和建模现实世界,而且还应该具备设想可能的未来状态的能力,从而为决策提供信息。英伟达官网的定义为:“世界模型是理解现实世界动态(包括其物理和空间属性)的生成式AI模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。”
据JingtaoDing等撰写的《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》,世界模型已有较长时间的研究,而在Sora发布之后,世界模型获得了更为广泛的关注。
2018年:Haetal.首次系统地将世界模型的概念引入人工智能社区。
2022年:在关于自主机器智能发展的前瞻性文章中,YannLeCun介绍了联合嵌入预测架构(JEPA),这是一个反映人脑结构的框架。JEPA包括一个处理感官数据的感知模块,后跟一个评估这些信息的认知模块,有效地体现了世界模型。该模型允许大脑评估动作并确定最适合实际应用的反应。
2023年:大语言模型的浪潮中,一些工作证明了潜在世界知识的存在。这些模型捕获了直观的知识,使得他们能对现实世界场景做出预测。此外,LLMs能够对外部世界进行建模。
2024年:OpenAI引入了Sora模型,Sora被广泛认为是世界模拟器的视频生成模型,它展示了卓越的建模功能,输入真实世界的视觉数据后模型可以输出视频帧,预测未来世界的演变。
图1:世界模型研究进展
ingtaoDing等《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》,
OpenAI探索了基于视频数据生成模型的大规模训练,在Transformer架构上进一步推出Sora。Sora能够生成一分钟的高保真视频。尽管视频生成模型和世界模型并不能完全等同,但是Sora的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前景的途径。
从技术架构看,Sora被认为是一种基于扩散的视频生成模型。它由三个部分组成:1.一个压缩模型,在时间和空间上将原始视频压缩为潜在表示,以及一个不对称模型,将潜在表示映射回原始视频。2.一种基于Transformer的扩散模型,类似于DiT,在潜在空间中进行训练。3.一种语言模型,它将人工指令编码到嵌入中,并将其注入到生成模型中。
图2:Sora的潜在架构
hengZhu等《IsSoraaWorldSimulator?AComprehensiveSurveyonGeneralWorldModelsandBeyond》
您可能关注的文档
最近下载
- 2025年中考化学复习新题速递之酸碱中和反应及其应用(2024年9月).doc
- 选择性必修三 Unit3 Environmental Protection 第六课时 Project教学设计.docx
- 政治学概论 第十章 国际政治 .pptx
- SY-T 5836-93中深井压裂设计施工方法.pdf VIP
- 政治学之第五章国家机构课件.ppt VIP
- L系列冷却塔风机说明书 含易损件清单(风机直径大于等于7m)上海尔华杰机电装备制造有限公司 (原上海化工机械二厂).pdf
- 营销策划 -酣客新产品品牌战略方案- 酣客 华与华-第一阶段顾问成果决策会(白酒).pptx
- 第七章:《政治学概论》之政治文化.ppt VIP
- 工业大脑解决方案手册(阿里云).docx
- 川教版生命生态安全四上第12课《睡眠与健康》课件.pptx
文档评论(0)