10深度学习-第十章计算机视觉.pptx

下载文档

0
0
约5.39千字
约 62页
2025-03-28 发布于山东
举报
版权申诉
保障服务

10深度学习-第十章计算机视觉.pptx

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十章计算机视觉

第一节图像分类;计算机视觉概述;10.1图像分类;10.1.1数据集;10.1.1数据集;ImageNet数据集[3]：用于视觉对象识别软件研究的大型数据库，由斯坦福大学的李飞飞教授团队创建。包含超过1400万张带有标注的图像，涵盖超过2万个类别，是计算机视觉领域中被广泛使用的数据集之一。

;10.1.2传统方法;10.1.3深度学习方法;10.1.4数据增强技术;10.1.5正则化技术;10.1.6预训练与迁移学习;10.1.7二分类评价指标;准确率（Accuracy）：表示模型正确预测的样本数占总样本数的比例

特异度（Specificity）：表示模型预测的负样本数占总负样本数的比例

FPR（FalsePositiveRate）：表示模型预测的正样本中的实际负样本占所有负样本的比例。FPR越大，预测正样本中的实际负样本越多

;精确率（Precision）：表示模型预测的正样本数占总正样本数的比例

召回率（Recall）：表示正样本中，被模型正确预测为正样本的比例

F1-Score：精确率和召回率的调和平均值，用于同时衡量模型的精确率和召回率

;P-R曲线：表示横纵坐标分别为精确率和召回率的曲线。P-R曲线可以帮我们找到一个合适的阈值让模型同时具备较高的精确率和召回率

AP：AP（AveragePrecision）是P-R曲线下面积。通常来说，AP值越高，模型分类效果越好。AP可以看作是P-R曲线的一个量化指标

;ROC曲线：ROC（ReceiverOperatingCharacteristic）曲线的横纵坐标分别为FPR和TPR（TruePositiveRate），其中TPR与召回率相同。ROC曲线可以评价模型在不同阈值下的表现

AUC：AUC（AreaUnderCurve）为ROC曲线下面积，取值范围在0至1之间。当AUC等于0.5时，相当于随机预测；AUC越接近1则模型分类性能越好，越接近0则模型性能越差。AUC可以看作是ROC曲线的一个量化指标;Accuracy_top1：也称为Top-1准确率，指的是模型预测的最高概率类别与真实的类别完全匹配的比例

Accuracy_top5：即Top-5准确率，放松了正确答案的标准。在这个指标下，如果模型预测的最高概率的五个类别中包含真实类别，就算作预测正确

Macro指标：即宏观平均，对于每一个类别，首先独立计算该类别的精确率、召回率或F1分数。然后，将所有类别的这些指标取平均值得到最终的Macro指标。这意味着每个类别在计算过程中拥有平等的权重，不管类别中的样本数量多少

Micro指标：即微观平均，首先，对所有的预测结果（而非每个类别单独）进行汇总，计算总的TP、FP、TN和FN。然后，基于这些总量计算整体的精确率、召回率或F1分数。Micro平均关注的是整体的分类性能，而不是单个类别的表现

;10.1.9应用场景;10.1.10发展趋势;可解释性与可信性：

特征可视化（Grad-CAM）

模型对齐

注意力机制（AttentionMechanisms）：

空间注意力、通道注意力

自注意力机制（SelfAttention)

混合架构：

CNN+ViT

;;10.2目标检测;10.2.1传统方法;10.2.2深度学习方法;10.2.3发展历程;10.2.4数据集;MSCOCO数据集

COCO数据集是微软团队发布的?个可以用来做目标检测、语义分割和图像字幕任务的数据集，该数据集收集了大量包含常见物体的日常场景图片，并提供像素级的实例标注以更精确地评估检测和分割算法的效果，致力于推动场景理解的研究进展

COCO的检测任务共含有80个类，在2014年发布的数据中，训练集、验证集和测试集分别为80K/40K/40K张图片

;GoogleOpenImage数据集

OpenImage是谷歌团队发布的数据集。最新发布的OpenImagesV4包含190万图像、600个种类，1540万个边界框标注，是当前最?的带物体位置标注信息的数据集

边界框大部分都是由专业注释人员手动绘制的，确保了它们的准确性和?致性。另外，这些图像是?常多样化的，并且通常包含有多个对象的复杂场景（平均每个图像8个对象）

;DOTA数据集

DOTA是遥感航空图像检测的常用数据集，包含2806张航空图像，尺寸约为4000×4000分辨率，包含15个类别共计188，282个实例，其中14个主类，smallvehicle和largevehicle都是vehicle的子类

数据划分为1/6验证集，1/3测试集，1/2训练集。目前发布了训练集和验证集，图像尺?从800×800到4000×4000不等

;10.2.5代表方法;10

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

10深度学习-第十章计算机视觉.pptx