- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
三元ReLU回归神经网络线性区域数量的下界
YutaNakaharaManabuKobayashiToshiyasuMatsushima
CenterforDataScienceCenterforDataScienceDept.ofAppliedMath.
WasedaUniversityWasedaUniversityWasedaUniversity
Tokyo,JapanTokyo,JapanTokyo,Japan
y.nakahara@waseda.jpmkoba@waseda.jptoshimat@waseda.jp
Abstract
本随着深度学习的进步,减少计算复杂性和内存消耗已成为一个重要挑战,而
译将参数限制为的三值神经网络(NN)作为一种有前景的方法受
中到了关注。尽管三值NN在图像识别和自然语言处理等实际应用中表现出
色,但其理论理解仍显不足。本文从线性区域数量的角度出发对三值NN的
1
v表达能力进行了理论分析。具体来说,我们评估了使用修正线性单元(ReLU)
9作为激活函数的三值回归神经网络的线性区域数量,并证明随着网络宽度
7呈多项式增长以及深度呈指数级增长,其线性区域的数量类似于标准NN。
0
6此外,我们展示了只需将三值NN的宽度平方或深度加倍即可达到与一般
1ReLU回归NN相当的最大线性区域数目的下限。这在某种程度上为三值
.
7NN实际上的成功提供了理论解释。
0
5
2
:1介绍
v
i
x近年来,随着深度学习的快速发展,神经网络(NNs)在各个领域取得了显著成果。然而,它
r
a们庞大的计算和内存消耗已成为其在移动设备和边缘计算中应用的重大障碍。特别是,在嵌
入式系统实现需要实时处理或在计算资源有限的环境中,减少神经网络的内存和计算需求是
一个迫切的问题。
作为一种有前途的解决方法,已经提出了离散化神经网络参数的方法。特别是,限制网络权
重为二值或三值的方法,或者量化激活函数输出值的方法已经开发出
来[Courbariauxetal.,2016,Lietal.,2022]。这些方法在包括图像识别[Rastegarietal.,2016,
Liuetal.,2020]、自然语言处理[Baietal.,2021,Wangetal.,2023,Maetal.,2024]和语音识别
[Xiangetal.,2017]在内的广泛任务中实现了与传统连续值神经网络相当的性能,同时成功地
大幅降低了计算复杂性和内存使用量。特别值得注意的是,尽管这些离散化神经网络对其参
数进行了极其严格的限制,但在实际任务中仍能保持高性能。
然而,对于这些离散化方法为何能有效工作的基本问题的理论理解仍然不足。这项研究的动
机是理论上解释三值神经网络成功的原因。提供此类理论解释的研究几乎没有进行过。特别
是,从神经网络表达能力的角度,尤其是通过线性区域数量来进行评估的工作尚未见到。
关于一般神经网络的线性区域数量,已经报道了几项重要的结果。特别是,对于使
您可能关注的文档
- 基于图的双曲率结构设计算法分析及平面六边形面板的制造-计算机科学-计算设计-生成算法-平面化制造.pdf
- 使用史瓦西度量进行黑洞图像的并行光线追踪-计算机科学-并行编程-数学近似.pdf
- 可穿戴设备的设计与优化以收集人体运动能量-计算机科学-人工智能-可穿戴电子设备.pdf
- Nd3+ 掺杂诱导的高温下 0.7BiFeO3-0.3BaTiO3 无铅压电陶瓷漏电流抑制-计算机科学-铁电极化.pdf
- 资源受限边缘环境下的轻量级对象检测系统的设计与实现-计算机科学-深度学习-微控制器设备-计算机视觉.pdf
- SDBench:一套全面的说话人分离基准测试套件-计算机科学-人工智能-说话人分割-设备端推理.pdf
- 税算基准:在税收计算任务上评估前沿模型-计算机科学-人工智能-税收计算-大语言模型.pdf
- MLRU++: 带注意力机制的多尺度轻量级残差 UNETR++用于高效 3D 医学图像分割-计算机科学-深度学习-神经网络-高性能.pdf
- 三维视网膜层分割中的通用小波单元-计算机科学-生物医学图像处理-计算机视觉-离散小波变换-图像分割.pdf
- 计算机视觉问题中卷积神经网络正交可调小波单元的阻带能量约束-计算机科学-机器学习-异常检测-计算机视觉.pdf
- 2025至2030中国多乙二醇行业项目调研及市场前景预测评估报告.docx
- 2025至2030瓶清洗器行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030中国虚拟训练与仿真行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030中国雷达吸收材料行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030厨房炒锅行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030中国潜水衣套装行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030中国微机电设备行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030中国男童套装行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030中国防护保养品行业项目调研及市场前景预测评估报告.docx
- 2025至2030中国期刊出版行业市场现状分析及竞争格局与投资发展报告.docx
文档评论(0)