【世毕盟人工智能申请】系列微讲座第三场:计算机视觉(CV).docxVIP

  • 2
  • 0
  • 约4.93千字
  • 约 7页
  • 2017-09-20 发布于河北
  • 举报

【世毕盟人工智能申请】系列微讲座第三场:计算机视觉(CV).docx

【世毕盟人工智能申请】系列微讲座第三场:计算机视觉(CV).docx

【世毕盟人工智能申请】系列微讲座第三场:计算机视觉(CV)今天的嘉宾Li学长,横扫Stanford, MIT等最顶尖的Computer Vision方向计算机博士全奖offer。嘉宾分享:大家好,我是LYZ,来自北京大学信息科学技术学院,今年大四,之后会前往MIT攻读博士学位,专业方向是计算机视觉+机器人。今天的讲座我主要以文字方式和大家呈现!首先讲一下我的经历吧,我从大二下学期开始做科研,第一段科研是大二下到大三下,在北大和一位UCLA的postdoc一起完成的,最后完成了一篇一座ECCV。第二段科研是大三暑假在斯坦福大学完成的,有一篇NIPS workshop一座。第三段科研是在大四上学期,也是在斯坦福,有一篇ICML一座in submission。前两段的研究方向是纯computer vision,最后一段着手了一个交叉领域computer vision+reinforcement learning,发现这个方向很有意思,这也是为什么选择vision+robotics作为phd的研究方向。我的分享主要分三个部分,第一个部分是对计算机视觉大方向的科普,第二个部分是对视觉领域下面各个小方向的分析,第三个部分主要讲一讲各个学校的研究者和研究方向。大方向人对周围环境的感知大部分都来源于视觉,所以我们希望给定视觉信息,让计算机进行感知、识别甚至推断,进一步的,还希望计算机能做出相应reasonable的行为。针对这种高维且不连续的视觉输入,一个很大的困难就是对underlying distribution的刻画。考虑这种像素级别的输入,比如所有狗的图片,很难说清楚它们在高维空间中构成怎样的一个流形,以及如何把它们和其他类别区分开。一个直观的想法就是把图片映射到一个相对低维的流形上,也就是所谓的提取特征,然后用机器学习的办法进行识别。很有名的诸如SIFT feature和HOG feature就是典型的传统的特征提取方法。现在因为深度学习的介入,往往不再割裂特征提取和分类器,而是使用大体量的复杂模型(比如神经网络),直接从输入到输出,进行端到端的学习(end-to-end learning),这样可以从大量数据中学习出层次化的特征表示。而且通过一种任务学习出的特征往往也具有比较好的迁移到其他任务的能力(transfer learning)。目前深度学习基本上横扫了大多数的计算机视觉任务,在很多任务上达到甚至超过了人类的水平,让很多实际应用成为了可能。接下来想聊一聊计算机视觉的发展前景:我个人感觉计算机视觉的未来发展前景还是很不错的!医疗:我第二段科研待的斯坦福实验室就以皮肤癌分类的工作发了Nature封面,其他应用还有肺部结节检测,组织学切片的分析等等。交通:各个大玩家也都开始进行无人车的研发,视觉输入就是其中极其重要的一部分,哪怕是针对lidar输入,也可以用深度学习相关的方法进行分析;还有无人机跟踪、跟拍;以及使用深度学习的交通流量预测等等。可持续发展:我第三段科研待的斯坦福实验室还使用过卫星图像对地区进行贫困程度的判断,并发表在Science上;之后还有更多的工作是使用卫星图像预测庄稼的收成、统计珍稀动物、追踪种群迁移等等。安防:国内国外很多计算机视觉公司着眼于这一块,也是更多热门计算机视觉问题的用武之地,进行人脸检测、识别、追踪等相关的工作。当然还有很多其他领域,可以说,计算机视觉在商业上机会很多,想象空间也很大。接下来聊一聊入坑所需要的相关知识:首先需要强调的是编程能力。做视觉相关的科研,往往需要做大量的实验,所以需要至少能熟练使用python,现在各种框架基本都支持python,也是现在研究者们最常使用的语言;最好还需要能熟练使用C/C++,毕竟想要做出更多更有影响力的工作,仅仅基于现有框架给出的high-level的api往往是不够的,很多时候还是需要实现一些定制化的结构或者环境。比如在我第一段科研中,需要使用cuda编程,在底层实现我们设计的新的神经网络结构,在我第三段科研中,需要用C++编写底层的网络通信,去实现前端算法和后端一个开源赛车模拟器之间的通信。然后是数学基础,基本的微积分、线性代数、概率统计相关的知识肯定是需要熟练掌握的,在这个基础上,很多相关知识可以在科研的过程中慢慢积累。还有就是机器学习基础,基本概念、基本模型以及一些基础的优化方法都需要掌握。具体方向计算机视觉的具体研究方向有非常多,其中三个更重要的方向我会稍微详细说说。图像分类(image classification)就是给定图像,让模型去判断图中是什么(猫?狗?)。这个任务具有一定程度的标志性,在2012年AlexNet以很大margin击败传统方法时,就象征着深度神经网络新一波的崛起。之后有影响力的工作的诸如VGG-Net、GoogLeNe

文档评论(0)

1亿VIP精品文档

相关文档