网站大量收购闲置独家精品文档,联系QQ:2885784924

神经网络理论研究的物理学思想.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数学的具象化为物理,而物理的尽头则为数学,数学与物理相辅相成,成为理解神经网络乃至智能本质不可

或缺的手段。在人工智能正在重塑人类社会方方面面的同时,我们有必要去了解物理学的思想如何影响人们

对神经网络乃至自我的认知。

关键词:统计物理,神经网络,机器学习,伊辛模型,对称性破缺

神经网络在当今人工智能研究和应用中发挥着不可替代的作用。它是人类在理解自我(大

脑)的过程中产生的副产品,以此副产品,人类希望建造一个机器智能来实现机器文明。这个

目标在当下如火如荼的人工智能研究中被无限倍凸显,甚至被认为是一场新的工业革命到来

的标志。

在人类社会前几次工业革命浪潮中,物理学扮演了十分重要的角色,或者说,这些革命的理

论基石在于物理学原理的突破,如热学、量子力学和相对论。但当今的人工智能革命似乎是

经验科学(启发式的诀窍,如Transformer)所驱动的,在过去20年间,尤其是谷歌等互联网

巨头加入这场浪潮之后,人工神经网络的架构出现了快速迭代。物理学对神经网络的研究历

史悠久,最早①可追溯到20世纪80年代初霍菲尔德(与辛顿一起获得2024年诺贝尔物理学

奖)联想记忆网络的提出;物理学思想在这之后对人工神经网络和神经动力学的研究都产生了

深远的影响。著名物理学家戴森有一个说法:“严谨理论赋予一个课题以智力的深度和精确。

在你能证明一个严格理论之前,你不可能全面了解你所关注的概念的意义。”②获得玻尔兹曼

奖的物理学家霍菲尔德也曾在一次访谈中提到,“如果你不能用数学的语言去描述大脑,那你

将永远不知道大脑是怎么工作的。”而鉴于他自身的习惯,“如果一个问题和我熟知的物理毫

无联系,那我将无法取得任何的进展”。所以,在人工智能正在重塑人类社会方方面面的同

时,我们有必要去了解物理学的思想如何影响人们对神经网络乃至自我的认知。

1.从伊辛模型谈起

伊辛模型是统计物理的标准模型[1]。它虽然被用来描述格点上(比如二维表面)磁矩的集体行

为,但是却包含了非常丰富的物理图像(比如相变、自发对称性破缺、普适性等),更让人震

惊的是,这个模型的物理图像可以向外扩展到多个似乎毫不相关的学科,如经济学、神经科

学、机器学习等。我们先从物理学专业本科生所熟知的态方程讲起:

mtanh(Jm+h)

这显然是个迭代方程,因为变量m出现在方程式等号的两边,其中J描述了自旋之间的相互作

用,m表示磁化强度矢量,h则表示外加磁场。注意到,该态方程在没有外加磁场并且相互作

用较弱情况下,有且只有一个平庸解,即所有磁化为零,用物理学语言讲叫顺磁态。然而,

当增大相互作用到一定程度时,顺磁态将失去稳定,该方程出现两个非平庸解(物理上叫铁磁

解,即m±M)。这个过程叫自发对称性破缺或连续相变。

这个迭代蕴含了神经网络的形式。神经网络的基本属性可以总结为DNA,即数据(data)、网

络(network)和算法(algorithm),如图1所示。你把初始化m看成输入数据,每迭代一次将

0

生成一个新的m,这个就是神经网络的中间隐层表示。然而,奇妙的是,神经网络把J也变成

可以变化的量,这就意味着这个模型是可以变聪明的(即能处理每一个输入)。这在传统物理

学里很不可思议,因为模型通常需要大物理学家猜出来。而外场可以等价于神经网络的偏

置(见图1)。那么如何更新J呢?你只需要写下一个目标函数,即这个神经网络,或者学习中

的模型要达到什么样的目标。比如,实现数据的二分类,你可以轻松地写下

这里的a表示数据输入-输出对(x,y)(y在机器学习叫标签),而fJ就是这个被J参数化的神经网

络(其本质显然是一个非常复杂的嵌套函数,类似于上面态方程的多次迭代,只不过每次迭代

的J都不一样)。

图1神经网络的迭代示意图

接下来你需要一个算法来驱动这个网络自我更新。这个算法其实就是梯度下降:dJ/dt

-∇E。聪明的读者一眼就认出这是个过阻尼的朗之万动力学,因为人们在训练神经网络时通

J

常在上面的方程右边加

您可能关注的文档

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档