卷积神经网络概述及示例.docxVIP

下载本文档

0
0
约3.44千字
约 8页
2025-05-03 发布于湖南
举报
版权申诉

卷积神经网络概述及示例.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究人员在研究图像处理算法时提出了CNN（卷积神经网络）的概念。传统的全连接网络是一种黑盒子-它接收所有输入并通过每个值传递到一个dense网络，然后再传递给一个热输出。这似乎适用于少量的输入。

当我们处理1024x768像素的图像时，我们输入3x1024x768=2359296个数字（每个像素的RGB值）。使用2359296个数字的输入向量的dense多层神经网络在第一层中每个神经元至少具有2359296个权重-第一层的每个神经元具有2MB的权重。对于处理器以及RAM，在20世纪90年代和2000年除，这几乎是不可能的。

这导致研究人员想知道是否有更好的方法来完成这项工作。任何图像处理（识别）中的第一个也是最重要的任务通常是检测边缘和纹理。接下来是识别和处理真实对象。很明显要注意检测纹理和边缘实际上并不依赖于整个图像。人们需要查看给定像素周围的像素以识别边缘或纹理。

此外，用于识别边缘或纹理的算法在整个图像中应该是相同的。我们不能对图像的中心或任何角落或侧面使用不同的算法。检测边缘或纹理的概念必须相同。我们不需要为图像的每个像素学习一组新参数。

这种理解导致了卷积神经网络。网络的第一层由扫描图像的小块神经元组成-一次处理几个像素。通常这些是9或16或25像素的正方形。

CNN非常有效地减少了计算量。小的“filter/kernel”沿着图像滑动，一次处理一小块。整个图像所需的处理非常相似，因此非常有效。

虽然它是为图像处理而引入的，但多年来，CNN已经在许多其他领域中得到应用。

一个例子

现在我们已经了解了CNN的基本概念，让我们了解数字的工作原理。正如我们所看到的，边缘检测是任何图像处理问题的主要任务。让我们看看CNN如何用于解决边缘检测问题。

左边是16x16单色图像的位图。矩阵中的每个值表示相应像素的亮度。我们可以看到，这是一个简单的灰色图像，中间有一个方块。当我们尝试将其用2x2filter（中图）进行卷积时，我们得到一个14x14的矩阵（右图）。

我们选择的filter可以突出显示图像中的边缘。我们可以在右边的矩阵中看到，原始图像中与边缘对应的值是高的(正的或负的)。这是一个简单的边缘检测filter。研究人员已经确定了许多不同的filter，可以识别和突出图像的各个不同方面。在典型的卷积神经网络（CNN）模型开发中，我们让网络自己学习和发现这些filters。

重要概念

以下是我们在进一步使用CNN之前应该了解的一些重要概念。

Padding

卷积filter的一个明显问题是每一步都通过减小矩阵大小来减少“信息”-缩小输出。基本上，如果原始矩阵是N×N，并且filter是F×F，则得到的矩阵将是（N-F+1）×（N-F+1）。这是因为边缘上的像素比图像中间的像素少。

如果我们在所有边上按（F-1）/2像素填充图像，则将保留N×N的大小。

因此，我们有两种类型的卷积，即ValidConvolution和SameConvolution。Valid实质上意味着没有填充。因此每个卷积都会导致尺寸减小。SameConvolution使用填充，以便保留矩阵的大小。

在计算机视觉中，F通常是奇数。奇数F有助于保持图像的对称性，也允许一个中心像素，这有助于在各种算法中应用均匀偏差。因此，3x3,5x5,7x7filter是很常见的。我们还有1x1个filter。

Strided

我们上面讨论的卷积是连续的，因为它连续扫描像素。我们也可以使用strides-通过在图像上移动卷积filter时跳过s像素。

因此，如果我们有nxn图像和fxffilter并且我们用strides和paddingp进行卷积，则输出的大小为：（（n+2p-f）/s+1）x（（n+2p-f）/s+1）。

卷积v/s互相关

互相关基本上是在底部对角线上翻转矩阵的卷积。翻转会将关联性添加到操作中。但在图像处理中，我们不会翻转它。

RGB图像上的卷积

现在我们有一个nxnx3图像，我们用fxfx3filter进行卷积。因此，我们在任何图像及其filter中都有高度，宽度和通道数。任何时候，图像中的通道数量与filter中的通道数量相同。这个卷积的输出有宽度和高度（n-f+1）和1通道。

多个filters

一个3通道图像与一个3通道filter卷积得到一个单一通道输出。但我们并不局限于一个filter。我们可以有多个filters——每个filter都会产生一个新的输出层。因此，输入中的通道数应该与每个filter中的通道数相同。filters的数量和输出通道的数量是一样的。

因此，我们从3个通道的图像开始，并在输出中以多个通道结束。这些输出通道中的每一个都表示

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

卷积神经网络概述及示例.docxVIP