深度学习案例教程教案1.5 深度学习的应用领域-计算机视觉.docx

下载文档

0
0
约1.92千字
约 4页
2025-03-03 发布于山东
举报
版权申诉
保障服务

深度学习案例教程教案1.5 深度学习的应用领域-计算机视觉.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1-05深度学习的应用领域-计算机视觉

（p18）接下来我们来学习深度学习的应用场景，计算机视觉。计算机视觉一般分为四部分。目标检测、语义分割、超分辨率重建、行人重识别。

（p19）那什么是目标检测呢？目标监测是当前计算机视觉领域的研究热点之一。他的核心任务是筛选出给定图像中所有感兴趣的目标，并确定其位置以及大小。现如今深度学习中，一般通过搭建卷积神经网络提取图像特征，通过图上的特征分布，来寻找感兴趣的目标在哪个位置。进一步通过坐标回归的方式再确定这个位置的大小，并最终精确的框出了目标。

基于深度学习的目标检测算法主要分为两类：Twostage和Onestage，即两阶段和一阶段的方法。

对于两阶段的方法，先进行区域生成，该区域称之为regionproposal（简称RP，一个有可能包含待检物体的预选框），再通过卷积神经网络进行样本分类。所以他的步骤是，1、特征提取，2、生成RP，3、分类/定位回归，如此完成目标检测。常见两阶段目标检测算法有：R-CNN、SPP-Net、FastR-CNN等。

对于一阶段的方法，他不用预选框，而是直接在网络中提取特征来预测物体分类和位置。他的步骤相对简单，1、特征提取，2、分类/定位回归。常见的一阶段的目标检测算法有：OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。

（p20）第二块是语义分割。语义分割是一种典型的计算机视觉问题，其涉及将一些原始数据（例如，平面图像）作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。许多人使用术语全像素语义分割（full-pixelsemanticsegmentation），其中图像中的每个像素根据其所属的感兴趣对象被分配类别ID。

早期的计算机视觉问题只发现边缘（线条和曲线）或渐变等元素，但它们从未完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起来解决这个问题，从而扩展了其应用领域。

语义分割也分为两个类型：1、标准语义分割，也称为全像素语义分割，它是将每个像素分类为属于对象类的过程；2、实例感知语义分割，是标准语义分割或全像素语义分割的子类型，它将每个像素分类为属于对象类以及该类的实体ID。

（p21）那么，什么是超分辨率重建呢？他的主要任务是通过软件和硬件的方法。从观测到的低分辨率图像重建出高分辨率的图像，这样的技术在医疗影像中和视频编码通信中十分重要。一般分为单图像超分和视频超分。在视频序列中通过该技去术解决丢帧的问题、模糊的问题。在单图像，主要通过该技术来提升细节和质感。

超分辨率重建的方法分为三种，基于插值的方法，基于重建的方法和基于深度学习的方法。传统方法中，基于插值的方法包括最近邻插值、双线性插值和双三次插值等，具有算法简单，处理速度快，但在诸如边缘、纹理等像素突变处的处理效果差，易出现锯齿和块效应；基于重构的方法包括频域方法和空域方法，但无法很好的模拟现实场景；基于深度学习的方法效果则会好很多。

（p22）第四部分是行人重识别-PersonRe-identification简称ReID。行人重识别又被称为行人再识别，是利用计算机视觉技术去判断图像或者视频序列中，是否存在特定行人的技术，也可以被认为是一个图像检索的问题。具体任务是给定一个监控行人图像，然后在其他的监控设备去寻找这个人在哪里出现过。这个可以通过提取图像中的人脸特征来搜索，但是很多情况下，监控摄像头拍到的人脸比较模糊，所以还需要提取行人的整理外观的特征来进行检索。

行人重识别有多种方法可以实现。

基于表征学习的ReID方法，该方法是一类非常常用的行人重识别方法。这主要得益于深度学习，尤其是卷积神经网络的快速发展。由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征，所以有些研究者把行人重识别问题看做分类问题：

基于度量学习的ReID方法，该方法广泛用于图像检索领域的一种方法。不同于特征学习，度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上，具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片（正样本对）的距离尽可能小，不同行人图片（负样本对）的距离尽可能大。

基于局部特征的ReID方法，早期的ReID研究大家还主要关注点在全局特征上，就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈，于是开始渐渐研究起局部的特征。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。

以上就是计算机视觉的几个研究领域。

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习案例教程教案1.5 深度学习的应用领域-计算机视觉.docx