网站大量收购独家精品文档,联系QQ:2885784924

计算机视觉算法基础指北.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

计算机视觉开源体系发展

视觉是指对图片或视频等图像数据类型进行数据发掘,识别和处理,发掘处理的方式正是计算机的算法,因此计算机视觉任务就是要开发一套算法,对图像数据进行一系列的发掘处理。一些基础的任务包括有图像分类、目标检测、语义分割、关键点检测……

而深度学习就是用深度神经网络来解决数据发掘问题,不同的模态、不同的数据类型都可以用深度神经网络来处理。让它下围棋,做强化学习就变成了AlphaGo;让它做图像分类就变成了AlexNet;让它发掘边和结点组成的图数据就变成了图神经网络;让它去处理文字就变成了循环神经网络或Transformer……

计算机视觉是一门让计算机学会”看”的学科,研究如何自动理解图像和视频中的内容。对于计算机视觉的应用我们并不陌生,小到我们日常微信的扫码支付,大到航天遥感应用……在直播中有两个另我印象深刻的例子,用眼睛控制鼠标移到和游戏结合表情,识别微笑即可射击(“笑死”)。当计算机视觉加上我们的创意创想,会产生无限的可能,给我一种未来已来的感觉,这也是它的魅力所在!

计算机视觉发展从1960年的早期萌芽到今日走了60个年头,相比其它科学发展史不算长,但按单位时间取得成果来看,计算机视觉绝对名列前茅。行业的飞快发展进步离不开开源的贡献,各大研究机构和公司陆续开源了自己的深度学习框架:2007年的theano,2013年的caffe,2015年谷歌的tensorflow、亚马逊的mxnet,2016年百度的Paddle、微软的CNTK,2017年Facebook的pythorch,当然还有后续的主角OpenMMLab。

OpenMMLab基于Pythorch的底层基础架构,研究覆盖计算机视觉30+方向,提供300+个最经典、最前沿的算法支持,涵盖2000+个开箱即用的预训练模型。在全球也有着广泛的影响。目前OpenMMLab2.0版本已发布。

直播课里介绍了MMDetection、MMPreTrain、MMSegmentation、MMPose等热门常用框架,并展示了强大的功能,详情可查阅官方文档。总体简单的了解下来,我感觉OpenMMLab就像哆啦A梦的口袋一样,是个很大的工具箱,不妨让我们的故事从今天开始吧……

机器学习算法基础

机器学习基础

机器学习用一句话概括就是:让机器从数据中学习经验,以解决特定问题

机器学习是通过数据驱动,让计算机程序进行学习、识别、拟合、数据挖掘,从数据中学习去解决问题。它有三种典型范式:

监督学习(有标签的):如图像分类、目标检测、语义分割等

无监督学习(无标签的):如聚类、降维等

强化学习(让智能体自己去适应环境):如AlphaGo等

还有自监督学习,虽然人类没有给数据集标注,但它可以自己找到标注,比如语言模型,我们输入大量的文本文章,让AI实现用邻近的词预测出中间的词、用前面的词预测后面的词,它自身能从无标注的数据中找到数据的规律并用于结果预测,这就是自监督学习。

我们为什么要让机器去学习呢?举个例子:假设有个100×100像素的图像,每个像素的值都有可能是0~255,而且是三通道即共有30000个像素,每个像素都有256种可能,但是一张小图片最后的结果就有256的3000次方个可能。如果人工地去设计算法,基于几百万个数据去分辨结果,还要考虑拍摄环境等复杂因素,显然是不切实际的。

由此可知,机器学习的用武之地就是那些难以通过人类理解、手工设计出来的算法解决的问题。

机器学习中的分类问题

分类问题即是输入某东西进而输出不同类别的概率,哪个概率高就认为它是哪个类别。在探讨机器学习的分类问题时,引出了垃圾信件分类的一个例子,我们先要把不同模态的数据变成向量,可以根据原始文本(图片、语音或其它类型数据),将其转成向量,即特征,再由向量特征去学习n维空间的决策边界。而特征的提取方式也可以是多样的,我们可以通过关键词提取、统计频率,根据频率构建特征,形成词频向量;也可以用神经网络编码文本得到特征……最终会获得一个n维的向量,代表原始数据的n个特征,特征可以看作是向量空间中的点,不同类文本分布在空间中不同的位置,由此我们可以拟合出分类曲线。

对给定两类数据,如何求解可以将两类数据分开的分界面?我们用标注数据去预测得到损失函数的值,再按照使得损失函数最小化的方向,去迭代优化各个权重,经过随机梯度下降多次的迭代训练,最终收敛得到决策边界。

在例子中,邮件是否为垃圾邮件只有两种可能:是或者否,于是拟合出的分类曲线是直线,也叫做线性分类。线性分类器假设类别和特征之间存在某种线性关系,换言之,不同类的数据在特征空间中可以被一条线分开。线性分类器可以在数学上简写成向量内积的形式,通常,我们称根据数据求解分类器参数的过程为训练或者学习。

以分类问题为例,采用机器学习解决实际问题通常需要三个步骤:

文档评论(0)

外卖人-小何 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档