北京大学王立威教授机器学习理论的回顾与展望-工业大数据创新中心.pdfVIP

下载本文档

2
0
约1.35万字
约 22页
2017-10-06 发布于天津
举报
版权申诉

北京大学王立威教授机器学习理论的回顾与展望-工业大数据创新中心.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北京大学王立威教授机器学习理论的回顾与展望-工业大数据创新中心

北京大学王立威教授：机器学习理论的回顾与展望王立威，在北京大学教授主要研究领域为机器学习。在包括 COLT, NIPS ，JMLR, PAMI 等权威会议期刊发表论文 60 余篇。2010 年入选 AI’s 10 to Watch ，是首位获得该奖项的亚洲学者。2012 年获得首届国家自然科学基金优秀青年基金，新世纪优秀人才。任 NIPS 等权威会议 Area Chair ，和多家学术期刊编委。以下为王立威教授所做的现场演讲的第一部分，主要覆盖了机器学习理论的内容，以及对 VC 理论的一些介绍。各位老师，同学们，下午好！非常高兴今天能有机会和大家进行分享，也特别感谢周志华老师对机器学习理论做了一个非常精辟的简介。今天我报告的题目是「机器学习的回顾和展望」。刚才周老师也提到，机器学习理论的目的是建立一个比较纲领性的认识。大家拿到的 PPT 里面有很多数学细节，既然大家已经有打印的版本，所以我就不花过多的时间讲数学细节，我把主要的时间花在介绍机器学习技术性的内容、最后的一些结论可以对你产生什么启发，也就是一些思想上的东西。那么言归正传。大家都知道，在过去几年当中，机器学习最成功的、影响最大的理论毫无疑问是深度学习。深度学习到目前为止，在很多地方发挥了作用，也取得了很多的成功。那么大家不禁要问一个问题了：深度学习现在很成功了，而且大家可能都知道，深度学习到目前为止没有什么机器学习的理论，或者说几乎就没有理论，在这个时点上，我们为什么还要思考理论？所以，我今天想谈一下我个人的观点。其实机器学习这个领域很有趣，如果大家回顾一下它过去大概 30 多年的发展历史，大家会发现，机器学习里面非常重要的一些算法，除了深度学习以外，其他的一些重要算法，比如说大家耳熟能详的 SVM、boosting ，还有 Random Forest 等，几乎全是由做学习理论的人提出来的，而不是由做纯应用的人提出来的。到目前为止，只有 Deep Learning（深度学习）是一个例外，而像报告里会提到的 SVM ，是由前苏联的概率学家、机器学习理论的先驱 V.Vapnik 提出来的；而 Random Forest 也得益于统计学家 Leo Breiman 的贡献。如果我们把这个时间点拉长一点，大家可以看到，理论的学习其实对算法的设计研究是有着极其重要的影响的。我们再来看一看深度学习。现在有很多关于深度学习的观点，比如我的一些同事朋友跟我讲，国外一些做深度学习应用方面特别前沿的人，说（理论）在深度学习的时代毫无用处，因为你们理论通常是一些不等式，比如算法设计出来之后，理论会告诉你这个算法的准确度或者说错误率的上界，但通常这个得出来的数值奇大无比，他们还做了一个比较形象的比喻，说就好比证明一只鸡的体重一定要小于一吨一样，这种说法其实是蛮多的。我想通过今天和大家的分享，谈一谈我的观点，就是说机器学习理论究竟是做什么来用的，它是不是只是为了证明这个界，为了说明算法在实际应用的错误率能小于多少，还是说它在传达一些更高层的信息。我个人的观点是，机器学习理论是后者，绝对不是为了证明一个算法的边界如何；机器学习理论的目的，在于提供对机器学习的问题的洞察和理解。第二点，很多人会有这样的观点，我们现在是一个大数据时代，像 ImageNet 这样的数据库资源有上千万。在过去，做机器学习理论的研究者可能处理的都是小数据集，也许理论还有一定的价值，但是今天我们做的都是动辄上千万的数据，是不是我们根本就完全不需要机器学习理论呢？我给大家提一个问题，一千万个数据就真的是大数据吗？我个人认为是小的数据，而且是非常非常小的。为什么呢？今天上千万的数据几乎都出现在视觉这个领域，人或者其他一些高等动物的视觉，经过多长的时间才形成这样的一个神经网络，能够以极快的速度去视觉感知、认知。这个长度是以亿年为单位，在亿年这样的进化过程当中，每一个时点都是生物以整体的角度在学习和进化，如果你从这个进化的角度来考虑，我们把进化看作一个学习的过程，这不是我提出来的理论，这是图灵奖得主 Leslie Valiant 提出来的。所以大家这么考虑，如果整个的生物群体经历上亿年的进化过程，接触到的数据是什么量级，我认为比千千万不知道要增加多少个零，所以我们今天的数据是非常小的数据。那么，我们今天的神经网络和生物的进化以亿万年的进化得到的数据有多大的不同？我给大家举一个例子。大家知道人脑或很多高等动物的大脑