我和辛顿一起发明了复杂神经网络，但它现在需要升级.docxVIP

下载本文档

0
0
约2.7千字
约 5页
2026-01-07 发布于上海
举报
版权申诉

我和辛顿一起发明了复杂神经网络，但它现在需要升级.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我和辛顿一起发明了复杂神经网络，但它现在需要升级

一、从玻尔兹曼机到深度学习：一段跨越四十年的技术共生史

1984年的实验室里，两张年轻的面孔正盯着黑板上的方程发愁。那是人工智能的第二个寒冬，神经网络研究因训练难题陷入僵局——人们知道多层网络理论上更强大，却始终找不到高效的训练方法。我（特伦斯·谢诺夫斯基）与杰弗里·辛顿的那次对话，意外叩开了深度学习的理论大门。

“如果把神经网络想象成一团气体呢？”这个看似疯狂的类比，最终催生出玻尔兹曼机。我们用统计物理学重新定义”学习”：神经网络的权重调整不再是机械的参数修正，而是像气体从高温向低温自发扩散一样，通过能量函数的最小化趋近最优状态。这一模型不仅证明了多层网络的可训练性，更成为现代深度学习的理论基石之一。它让学界意识到，神经网络的”学习”本质上是一种概率分布的优化过程，这为后来反向传播算法的普及和深度信念网络的突破埋下了关键伏笔。

但我们的研究路径很快分野。辛顿转向工程实践，将反向传播算法从理论推向实用——1986年《反向传播学习实验》论文的发表，让多层网络的训练效率提升了数个数量级；2006年提出的”深度信念网络”及”预训练+微调”策略，更直接加速了深度学习的产业化进程。而我选择回归神经科学实验室，用显微镜观察大脑的每一个神经回路，试图解答最初的困惑：生物大脑究竟如何实现高效的信息处理？

四十年后的今天，当ChatGPT掀起AGI（通用人工智能）热潮时，我们共同发明的复杂神经网络已渗透到图像识别、自然语言处理、药物研发等各个领域。但正如辛顿在近期访谈中所言：“Transformer可能不是通往AGI的唯一路径”，我们的”孩子”正面临前所未有的升级压力。

二、从算力误判到训练瓶颈：复杂神经网络的三大成长之痛

回顾神经网络的发展历程，“算力”始终是绕不开的关键词。辛顿曾在复盘时坦言自己80年代的”愚蠢”：当并行计算初露锋芒时，他错误地认为”把10个神经元分散到32个处理器上”就能提升效率，结果因模型规模与算力增长不匹配，导致速度提升曲线”惨不忍睹”。直到2014年听了IlyaSutskever的演讲，他才彻底明白”模型可以持续扩展（scale）“的真谛——现代Titan显卡仅需一分钟，就能追上1986年Lisp机器38年的训练进度。

这一历史教训在当下更具警示意义。如今的神经网络参数规模已突破万亿级，算力消耗以指数级增长，但模型性能的提升却呈现边际递减趋势。以语言模型为例，GPT-4的参数量是GPT-3的4倍，而在常识推理、逻辑演绎等核心能力上的进步却未达预期。问题的症结在于：我们仍在用30年前的反向传播算法训练百万倍规模的模型。尽管反向传播通过误差反向传递实现了高效的梯度计算，但面对万亿参数时，其”逐层计算、全局更新”的模式已显疲态——每轮训练需要遍历所有参数，导致计算资源的极大浪费。

另一个深层挑战来自对”智能本质”的理解偏差。辛顿曾尖锐批评乔姆斯基学派的语言学家：“他们沉迷于句法分析，却忽略了语言的真正功能是构建复杂模型的媒介。”这一批评同样适用于当前的神经网络设计。现有模型在”模式识别”上已超越人类（如图像分类准确率超99%），但在”知识建模”上仍显笨拙——它们能生成流畅的文本，却难以真正理解”因果关系”“抽象概念”等人类智能的核心要素。问题的根源在于，我们的神经网络设计过度依赖”数据驱动”，而对生物大脑的”结构驱动”机制借鉴不足。神经科学研究显示，人类大脑的信息处理并非简单的”输入-输出”映射，而是通过神经元集群的层级化、模块化连接，动态构建外部世界的”内部模型”。这种机制在现有神经网络中几乎未被复现。

三、从神经科学到跨域融合：复杂神经网络的升级路线图

要突破当前的技术瓶颈，需要从三个维度重构复杂神经网络的底层逻辑。

首先是”算力-模型”的协同进化。辛顿的历史教训提示我们，模型规模的扩展必须与算力架构的创新同步。当前，专用AI芯片（如TPU）的发展已能提供足够的算力，但模型设计仍停留在”通用架构+暴力训练”阶段。未来的升级方向应是”定制化模型-专用芯片”的协同设计：根据不同任务（如图像、语言、推理）的计算特征，设计专用的神经网络架构，并匹配相应的芯片指令集。例如，针对语言模型的长程依赖问题，可开发”记忆增强模块”，将高频使用的参数存储在片上缓存中，减少数据搬运的时间消耗；针对视觉模型的局部特征提取，可设计”空间注意力芯片”，通过硬件加速实现更高效的特征聚合。

其次是训练算法的范式革新。反向传播虽高效，但其”全局梯度更新”的特性限制了模型的可解释性和小样本学习能力。我们需要借鉴生物大脑的”局部学习”机制——神经科学发现，大脑的不同功能区（如视觉皮层、语言区）具有相对独立的学习能力，且能通过神经可塑性实现快速调整。受此启发，新型训练算法可尝试”分模块训练+全局协同”模式：