CNN学习一薛开宇.pptx

下载文档 降价啦

11
0
约4.68千字
约 71页
2017-09-15 发布于湖北
举报
版权申诉
保障服务

CNN学习一薛开宇.pptx

1、本文档共71页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

CNN学习一薛开宇

CNN（深度卷积网络）;本PPT架构;回顾 review;回顾 review;3、然后，拿掉那个后面的输出层后，隐含层的值就是我们所需要的特征值了。;如果我们的图像很大，比如说为100*100，隐含层有要学习100个特征，则这时候把输入层的所有点都与隐含层节点连接，则需要学习10^6个参数，这样的话在使用BP算法时速度就明显慢了很多。;为了处理大图像，所以后面就发展到了局部连接网络，也就是说每个隐含层的节点只与一部分连续的输入点连接。;因此：CNN一个厉害的地方就在于通过感受野和权值共享减少了神经网络需要训练的参数的个数。;本PPT架构;1、如，1000x1000像素的图像，有1百万个隐层神经元（特征值），全连接：1000x1000x1000000=10^12个连接，也就是10^12个权值参数。;1.图像的空间联系是局部的;2、如，局部感受野是10x10，隐层每个感受野只需要和这10x10的局部图像相连接，所以1百万个隐层神经元就只有一亿个连接，即10^8个参数（10X10X1000000=10^8);3、每一个神经元存在10x10=100个连接权值参数。那如果我们每个神经元这100个参数是相同的呢？也就是说每个神经元用的是同一个卷积核去卷积图像。只需：100个参数 ---（权值共享）;我们定义由同一种滤波器卷积得到的向量组合，为Feature Map。;假如一种滤波器，也就是一种卷积核就是提出图像的一种特征，那么我们如需要提取不同的特征。;所以假设我们加到100种滤波器，每种滤波器的参数不一样，表示它提出输入图像的不同特征。所以100种卷积核就有100个Feature Map。;Feature Map的神经元个数;例如，只有一种滤波器，也就是在一个Feature Map里，图像是1000x1000像素，而滤波器大小是10x10，假设滤波器没有重叠，也就是步长为10，神经元个数：(1000x1000 )/ (10x10)=100x100个神经元了，;如果100个Feature Map就是100倍了。由此可见，图像越大，神经元个数和需要训练的权值参数个数的差距就越大。;上面的讨论都没有考虑每个神经元的偏置部分。所以权值参数个数需要加1 。;再回到sparse autoencoder，它的参数个数很多，但每个神经元表征一个特征，输出a1、a2,而CNN，因为一个神经元表征的只是一小部分特征，所以参数很少（更简便用BP算法），但要多个神经元才能把完整特征表述出来，所以特征输出是矩阵（矩阵中包含多个同一种滤波器（神经元））;本PPT架构;一种典型的用来识别数字的卷积网络LeNet-5。;每输入一张32*32大小的图片，F6输出一个84维的向量，这个向量即我们提取出的特征向量。;网络的C1层是一个卷积层（为什么是卷积？卷积运算一个重要的特点就是，通过卷积运算，可以使原信号特征增强，并且降低噪音）?;1;convolve;C1层的Feature Map中滤波器的大小为（5*5），此时特征图（feature)的大小为(32-5+1)*(32-5+1)=28*28，同时，有6种滤波器，所以是6@28X28。Feature中每个神经元中的元素是对输入的卷积值再加上可训练偏置。;问：结合前面的知识，此时有____个参数。; 而到了s2层为下采样层，即pooling层。;pooling;Formally, after obtaining our convolved features as described earlier, we decide the size of the region, say to pool our convolved features over. Then, we divide our convolved features into disjoint regions, and take the mean (or maximum) feature activation over these regions to obtain the pooled convolved features. These pooled features can then be used for classification.;S2层的pooling值是邻域四个像素（2*2）求和变为一个像素，然后通过标量Wx+1加权，再增加偏置bx+1，然后通过一个sigmoid f(x)=1/(1+e-x)激活函数，产生一个大概缩小四倍的特征映射图Sx+1,因此，S2=(28/2*28/2)@6=14*14@6;输出激活函数f(.)可以有很多种，一般是sigmoid函数或者双曲线正切函数。sigmoid将输出压缩到[0, 1]，所以最后的输出平均值一般趋于