【2018年整理】机器视角--揭秘图像处理和卷积神经网络架构.docxVIP

下载本文档

2
0
约7.28千字
约 20页
2018-05-11 发布于浙江
举报
版权申诉

【2018年整理】机器视角--揭秘图像处理和卷积神经网络架构.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【2018年整理】机器视角--揭秘图像处理和卷积神经网络架构

机器视角--揭秘图像处理和卷积神经网络架构近日，Dishashree?Gupta?在?Analyticsvidhya?上发表了一篇题为《Architecture?of?Convolutional?Neural?Networks?(CNNs)?demystified》的文章，对用于图像识别和分类的卷积神经网络架构作了深度揭秘；作者在文中还作了通盘演示，期望对?CNN?的工作机制有一个深入的剖析。引言先坦白地说，有一段时间我无法真正理解深度学习。我查看相关研究论文和文章，感觉深度学习异常复杂。我尝试去理解神经网络及其变体，但依然感到困难。接着有一天，我决定一步一步，从基础开始。我把技术操作的步骤分解开来，并手动执行这些步骤（和计算），直到我理解它们如何工作。这相当费时，且令人紧张，但是结果非凡。现在，我不仅对深度学习有了全面的理解，还在此基础上有了好想法，因为我的基础很扎实。随意地应用神经网络是一回事，理解它是什么以及背后的发生机制是另外一回事。今天，我将与你共享我的心得，展示我如何上手卷积神经网络并最终弄明白了它。我将做一个通盘的展示，从而使你对?CNN?的工作机制有一个深入的了解。在本文中，我将会讨论?CNN?背后的架构，其设计初衷在于解决图像识别和分类问题。同时我也会假设你对神经网络已经有了初步了解。目录1.机器如何看图？2.如何帮助神经网络识别图像？3.定义卷积神经网络卷积层池化层输出层4.小结5.使用?CNN?分类图像1.?机器如何看图？人类大脑是一非常强大的机器，每秒内能看（捕捉）多张图，并在意识不到的情况下就完成了对这些图的处理。但机器并非如此。机器处理图像的第一步是理解，理解如何表达一张图像，进而读取图片。简单来说，每个图像都是一系列特定排序的图点（像素）。如果你改变像素的顺序或颜色，图像也随之改变。举个例子，存储并读取一张上面写着数字?4?的图像。基本上，机器会把图像打碎成像素矩阵，存储每个表示位置像素的颜色码。在下图的表示中，数值?1?是白色，256?是最深的绿色（为了简化，我们示例限制到了一种颜色）。一旦你以这种格式存储完图像信息，下一步就是让神经网络理解这种排序与模式。2.?如何帮助神经网络识别图像？表征像素的数值是以特定的方式排序的。假设我们尝试使用全连接网络识别图像，该如何做？全连接网络可以通过平化它，把图像当作一个数组，并把像素值当作预测图像中数值的特征。明确地说，让网络理解理解下面图中发生了什么，非常的艰难。即使人类也很难理解上图中表达的含义是数字?4。我们完全丢失了像素的空间排列。我们能做什么呢？可以尝试从原图像中提取特征，从而保留空间排列。?案例?1这里我们使用一个权重乘以初始像素值。现在裸眼识别出这是「4」就变得更简单了。但把它交给全连接网络之前，还需要平整化（flatten)?它，要让我们能够保留图像的空间排列。案例?2现在我们可以看到，把图像平整化完全破坏了它的排列。我们需要想出一种方式在没有平整化的情况下把图片馈送给网络，并且还要保留空间排列特征，也就是需要馈送像素值的?2D/3D?排列。我们可以尝试一次采用图像的两个像素值，而非一个。这能给网络很好的洞见，观察邻近像素的特征。既然一次采用两个像素，那也就需要一次采用两个权重值了。希望你能注意到图像从之前的?4?列数值变成了?3?列。因为我们现在一次移用两个像素（在每次移动中像素被共享），图像变的更小了。虽然图像变小了，我们仍能在很大程度上理解这是「4」。而且，要意识到的一个重点是，我们采用的是两个连贯的水平像素，因此只会考虑水平的排列。这是我们从图像中提取特征的一种方式。我们可以看到左边和中间部分，但右边部分看起来不那么清楚。主要是因为两个问题：1.?图片角落左边和右边是权重相乘一次得到的。2.?左边仍旧保留，因为权重值高；右边因为略低的权重，有些丢失。现在我们有两个问题，需要两个解决方案。案例?3遇到的问题是图像左右两角只被权重通过一次。我们需要做的是让网络像考虑其他像素一样考虑角落。我们有一个简单的方法解决这一问题：把零放在权重运动的两边。你可以看到通过添加零，来自角落的信息被再训练。图像也变得更大。这可被用于我们不想要缩小图像的情况下。案例?4这里我们试图解决的问题是右侧角落更小的权重值正在降低像素值，因此使其难以被我们识别。我们所能做的是采取多个权重值并将其结合起来。(1,0.3)?的权重值给了我们一个输出表格。同时表格?(0.1,5)?的权重值也将给我们一个输出表格。两张图像的结合版本将会给我们一个清晰的图片。因此，我们所做的是简单地使用多个权重而不是一个，从而再训练图像的更多信息。最终结果将是上述两张图像的一个结合版本。案例?5我们到现在通过使用权重，试图把水平像素（horizontal?pixel）结合起来。但是大多数情况