计算机视觉算法基础指北.docx

下载文档

0
0
约5.23千字
约 13页
2025-03-29 发布于湖南
举报
版权申诉
保障服务

计算机视觉算法基础指北.docx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

计算机视觉开源体系发展

视觉是指对图片或视频等图像数据类型进行数据发掘，识别和处理，发掘处理的方式正是计算机的算法，因此计算机视觉任务就是要开发一套算法，对图像数据进行一系列的发掘处理。一些基础的任务包括有图像分类、目标检测、语义分割、关键点检测……

而深度学习就是用深度神经网络来解决数据发掘问题，不同的模态、不同的数据类型都可以用深度神经网络来处理。让它下围棋，做强化学习就变成了AlphaGo；让它做图像分类就变成了AlexNet；让它发掘边和结点组成的图数据就变成了图神经网络；让它去处理文字就变成了循环神经网络或Transformer……

计算机视觉是一门让计算机学会”看”的学科，研究如何自动理解图像和视频中的内容。对于计算机视觉的应用我们并不陌生，小到我们日常微信的扫码支付，大到航天遥感应用……在直播中有两个另我印象深刻的例子，用眼睛控制鼠标移到和游戏结合表情，识别微笑即可射击（“笑死”）。当计算机视觉加上我们的创意创想，会产生无限的可能，给我一种未来已来的感觉，这也是它的魅力所在！

计算机视觉发展从1960年的早期萌芽到今日走了60个年头，相比其它科学发展史不算长，但按单位时间取得成果来看，计算机视觉绝对名列前茅。行业的飞快发展进步离不开开源的贡献，各大研究机构和公司陆续开源了自己的深度学习框架：2007年的theano，2013年的caffe，2015年谷歌的tensorflow、亚马逊的mxnet，2016年百度的Paddle、微软的CNTK，2017年Facebook的pythorch，当然还有后续的主角OpenMMLab。

OpenMMLab基于Pythorch的底层基础架构，研究覆盖计算机视觉30+方向，提供300+个最经典、最前沿的算法支持，涵盖2000+个开箱即用的预训练模型。在全球也有着广泛的影响。目前OpenMMLab2.0版本已发布。

直播课里介绍了MMDetection、MMPreTrain、MMSegmentation、MMPose等热门常用框架，并展示了强大的功能，详情可查阅官方文档。总体简单的了解下来，我感觉OpenMMLab就像哆啦A梦的口袋一样，是个很大的工具箱，不妨让我们的故事从今天开始吧……

机器学习算法基础

机器学习基础

机器学习用一句话概括就是：让机器从数据中学习经验，以解决特定问题

机器学习是通过数据驱动，让计算机程序进行学习、识别、拟合、数据挖掘，从数据中学习去解决问题。它有三种典型范式：

监督学习（有标签的）：如图像分类、目标检测、语义分割等

无监督学习（无标签的）：如聚类、降维等

强化学习（让智能体自己去适应环境）：如AlphaGo等

还有自监督学习，虽然人类没有给数据集标注，但它可以自己找到标注，比如语言模型，我们输入大量的文本文章，让AI实现用邻近的词预测出中间的词、用前面的词预测后面的词，它自身能从无标注的数据中找到数据的规律并用于结果预测，这就是自监督学习。

我们为什么要让机器去学习呢？举个例子：假设有个100×100像素的图像，每个像素的值都有可能是0~255，而且是三通道即共有30000个像素，每个像素都有256种可能，但是一张小图片最后的结果就有256的3000次方个可能。如果人工地去设计算法，基于几百万个数据去分辨结果，还要考虑拍摄环境等复杂因素，显然是不切实际的。

由此可知，机器学习的用武之地就是那些难以通过人类理解、手工设计出来的算法解决的问题。

机器学习中的分类问题

分类问题即是输入某东西进而输出不同类别的概率，哪个概率高就认为它是哪个类别。在探讨机器学习的分类问题时，引出了垃圾信件分类的一个例子，我们先要把不同模态的数据变成向量，可以根据原始文本（图片、语音或其它类型数据），将其转成向量，即特征，再由向量特征去学习n维空间的决策边界。而特征的提取方式也可以是多样的，我们可以通过关键词提取、统计频率，根据频率构建特征，形成词频向量；也可以用神经网络编码文本得到特征……最终会获得一个n维的向量，代表原始数据的n个特征，特征可以看作是向量空间中的点，不同类文本分布在空间中不同的位置，由此我们可以拟合出分类曲线。

对给定两类数据，如何求解可以将两类数据分开的分界面？我们用标注数据去预测得到损失函数的值，再按照使得损失函数最小化的方向，去迭代优化各个权重，经过随机梯度下降多次的迭代训练，最终收敛得到决策边界。

在例子中，邮件是否为垃圾邮件只有两种可能：是或者否，于是拟合出的分类曲线是直线，也叫做线性分类。线性分类器假设类别和特征之间存在某种线性关系，换言之，不同类的数据在特征空间中可以被一条线分开。线性分类器可以在数学上简写成向量内积的形式，通常，我们称根据数据求解分类器参数的过程为训练或者学习。

以分类问题为例，采用机器学习解决实际问题通常需要三个步骤：

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

计算机视觉算法基础指北.docx