- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈
一、当AI遇到物理:从“经验主义”到“科学验证”的范式跃迁
在人工智能的发展浪潮中,大语言模型(LLM)的突破已从“能否生成文本”转向“能否深度推理”。当ChatGPT、GPT-4等模型在通用对话场景中展现出接近人类的表现时,科技界开始追问:这些模型是否真正理解了世界的底层规律?能否像人类科学家一样,从现象中归纳出普适性原理?
近年来,大模型在专业领域的应用逐渐深入,从代码生成到医疗诊断,从数学解题到工程设计,其能力边界不断拓展。但一个关键的问题始终悬而未决——如何客观、系统地评估大模型的“科学推理能力”?传统的AI基准测试多聚焦于语言理解、常识问答或简单逻辑判断,难以触及复杂物理现象背后的因果链与多步推导。例如,一个能准确预测行星轨道的模型,可能无法解释万有引力定律;一个能解答数学题的模型,可能不理解题目中隐含的物理意义。这种“知其然不知其所以然”的智能,暴露了大模型在科学思维层面的深层短板。
正是在这一背景下,北京大学物理学院的研究团队以“学科交叉”为突破口,用物理学这把“标尺”,为大模型的科学能力评估与机制解析打开了新维度。从PHYBench物理推理基准测试的推出,到“AI-牛顿”系统的原理发现,再到用最小作用量原理解码LLM生成规律的最新研究,北大物理系的系列成果不仅震撼了AI圈,更标志着大模型发展从“经验驱动”向“科学验证”的关键跃迁。
二、PHYBench:给大模型的“物理智商”做CT扫描
2025年9月,北大物理学院以本科生为核心的研究团队在人工智能顶级会议NeurIPS2025上发表的PHYBench物理学基准测试论文,成为学界关注的焦点。这一成果的特殊意义在于,它首次为大模型的物理推理能力提供了“精准CT扫描”。
PHYBench的设计理念源于对“科学推理本质”的深刻理解。物理作为自然科学的基础学科,其问题解决过程天然包含多步逻辑推导、因果关系分析、数学工具应用等复杂认知环节。北大团队精选了力学、热学、光学、电磁学、近代物理五大领域的500余道题目,覆盖从高中物理习题到大学生竞赛题的难度梯度,每道题都要求模型完成“理解问题-建立模型-数学计算-结论验证”的完整推理链条。与传统基准测试不同,PHYBench采用“模型闭环测试+人类解题验证”的双轨评估机制:一方面通过模型生成答案的自洽性检验推理严谨性,另一方面引入人类专家(包括物理竞赛金牌得主、高校教师)的解题数据作为参照,确保评测结果的科学性与公平性。
测试结果揭示了大模型在物理推理中的显著短板。表现最佳的模型准确率仅为45.8%,而人类专家的平均准确率达到61.9%。这一差距并非源于计算速度或记忆容量——大模型在简单公式计算上远胜人类——而是体现在“动态情境建模”和“因果链追踪”能力上。例如,在“分析斜面上滑块的运动状态”问题中,模型常因忽略空气阻力的动态变化或摩擦力的方向判断错误,导致后续推导全盘偏差;在“解释光电效应实验现象”问题中,模型虽能复述爱因斯坦方程,却难以将光子能量、逸出功等概念与实验参数的具体变化关联起来。
PHYBench的价值不仅在于“测不准”,更在于“指方向”。它首次将大模型的科学能力评估从“语言层面的形似”推向“思维层面的神似”,为模型优化提供了明确的靶标。正如项目负责人所言:“基准测试不是为了贬低模型,而是引导人类和AI共同朝着通用智能(AGI)前进。”该研究同时是教育部《物理学人工智能教育专用大模型》建设项目的首个重要成果,获得了国家自然科学基金、教育部物理学101计划等多项支持,其开放的数据集与代码(https://huggingface.co/datasets/Eureka-Lab/PHYBench)已成为全球AI研究者的重要工具。
三、AI-牛顿与最小作用量:用物理定律解码大模型的“黑箱”
如果说PHYBench解决了“如何评估”的问题,那么北大物理系的另一项成果——“AI-牛顿”系统与“LLM生成过程的细致平衡”研究,则试图回答“为何如此”的核心命题。
2025年11月,《自然》以“一个中国人工智能模型自主学到了基础物理学”为题,专题报道了马滟青教授课题组开发的“AI-牛顿”系统。该系统的突破性在于,它不仅能预测实验数据(如行星轨道、粒子碰撞结果),更能从数据中自主归纳出简洁普适的物理原理。传统AI模型擅长模式识别,但难以将分散的观察结果提炼为“定律”;而“AI-牛顿”通过引入“对称性约束”“数学简洁性偏好”等物理学核心思想,模拟了人类科学家“从现象到理论”的发现过程。例如,输入行星运动的观测数据后,它能自动推导出开普勒定律,甚至进一步抽象出万有引力公式——这一能力被《自然》评价为“向机器具备科学发现能力迈出了关键一步”。
更令人震撼的是2025年12月发表的最新
您可能关注的文档
- 2025年AI产品经理考试题库(附答案和详细解析)(1211).docx
- 2025年心理健康指导师考试题库(附答案和详细解析)(1225).docx
- 2025年注册信息系统审计师(CISA)考试题库(附答案和详细解析)(1222).docx
- 2025年注册勘察设计工程师考试题库(附答案和详细解析)(1222).docx
- 2025年注册化工工程师考试题库(附答案和详细解析)(1224).docx
- 2025年注册化工工程师考试题库(附答案和详细解析)(1226).docx
- 2025年注册家族财富管理师(CFWM)考试题库(附答案和详细解析)(1221).docx
- 2025年注册电气设备评估师考试题库(附答案和详细解析)(1215).docx
- 2025年注册给排水工程师考试题库(附答案和详细解析)(1226).docx
- 2025年注册风险控制师(CRC)考试题库(附答案和详细解析)(1220).docx
最近下载
- 滤波器2_网络综合基础.pdf VIP
- (汇总)沪教版八年级上册数学期末测试卷.docx VIP
- 新疆交投集团运营公司笔试真题.pdf
- 粤教粤科版(2025)科学一年级下册第1课 描述位置 课件.pptx VIP
- 温泽三坐标测量培训.pdf
- 学堂在线 现代生活美学——花香茶之道 章节测试答案.docx VIP
- 23G523-1 型钢混凝土组合结构构造.docx VIP
- YY_T 0148-2006 医用胶带通用要求 含2020年第1号修改单.docx VIP
- 2024年知识竞赛-互联网+国际贸易综合技能B2C模块知识竞赛考试历年真题荟萃带答案.docx VIP
- 中医辨证—八纲辨证(中医学课件).pptx
原创力文档


文档评论(0)