- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国机器学习白皮书-中国人工智能学会
中国机器学习白皮书
中国人工智能学会
二○一五年十一月
《中国人工智能系列白皮书》编委会
主 任:李德毅
执行主任:王国胤
副 主 任:杨放春 谭铁牛 黄河燕 焦李成 马少平 刘 宏
蒋昌俊 任福继 杨 强
委 员:陈 杰 董振江 杜军平 桂卫华 韩力群 何 清
黄心汉 贾英民 李 斌 刘 民 刘成林 刘增良
鲁华祥 马华东 马世龙 苗夺谦 朴松昊 乔俊飞
任友群 孙富春 孙长银 王 轩 王飞跃 王捍贫
王万森 王卫宁 王小捷 王亚杰 王志良 吴朝晖
吴晓蓓 夏桂华 严新平 杨春燕 余 凯 余有成
张学工 赵春江 周志华 祝烈煌 庄越挺
《中国机器学习白皮书》编写组
组长:
组员: 庄福振目 录
第1章 引言 1
第2章 主流机器学习技术进展 3
2.1 度量学习 3
2.2 多核学习 7
2.3 多视图学习 10
2.4 集成学习 14
2.5 主动学习 18
2.6 强化学习 22
第3章 新兴机器学习技术选介 27
3.1 迁移学习 27
3.2 深度学习 31
3.3 统计关系学习 34
3.4 演化学习 36
第4章 大数据时代的机器学习 41
4.1 并行机器学习 41
4.2 哈希学习 46
4.3 在线学习 48
第5章 结束语 52
第1章 引言
[1]。机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”[2]。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等),系统对应于数据模型(如决策树、支持向量机等),而性能则是模型对新数据的处理能力(如分类和预测性能等)。因此,机器学习的根本任务是数据的智能分析与建模。
随着信息技术不断向网络化、低成本方向发展,人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。
例如,美国科学院、工程院两院院士T. J. Sejnowski等人2009年在《Science》上撰文指出,机器学习正成为发展新的学科的基础之一[3];美国政府2012年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的《国家中长期科学和技术发展规划纲要》(2006-2020年)中,以机器学习为核心的“智能”关键词在目录中6次出现。特别值得一提的是,计算机界最高奖图灵奖在2010年与2011年连续两年授予机器学习领域的两位杰出学者(L. Valiant,2010年度;J. Pearl,2011年度),这标志着机器学习经过30余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。
本白皮书旨在简要阐述当前机器学习领域的研究和应用现状,主要包括三方面内容:
第2章 主流机器学习技术进展
2.1 度量学习
度量是计量的准则。脱离度量,收集的数据、分析的结果也就丧失了物理意义和现实指征。而距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K近邻分类器、使用了高斯核的核方法;在聚类方法中,K均值聚类、谱聚类方法都与距离度量密切相关。
一般来说,对于任意样本x, y, z而言的[4], 推土机距离EMD[5]等随着机器学习应用面的日益于2003年提出了距离度量学习[6]
对距离度量学习的研究首先始于对马氏距离的深入探讨。对于任意两个d维样本,其马氏距离的平方定义为
.
其中M是度量矩阵并且为了保持距离的非负对称性M应当为对称半正定矩阵一般的距离度量学习针对度量矩阵M展开例如 Xing等人提出的距离度量学习方法在已知某些样本在语义层面相似某些样本的境下引入必连link)和勿连cannot link)约束集和,即相似样本组成的样本对属于必连约束集、相异样本对属于勿连约束集),学习出一个满足给定约束的度量矩阵,为此设法学到一个M,使相似样本间距离尽量小、同时相异样本间距离尽量大,即优化如下式所列的约束优化问题[6]:
其中M半正定必然存在正交基P使得是一个低秩矩阵那么存在正交基,该正交基可以作为降维矩阵使用也即低秩距离度量学习可以衍生出一个降维方法图2-1
图2-1 距离度量学习前后3近邻分类效果示意图,问号为测试样本,训练样本分属于红、黑两个类别。左侧为各向同性的欧氏空间,测试样本根据多数投票应当分类为黑;右侧为度量学习后的空间,可以发现某些特征组合对近邻选取的作用得到了放大/缩小,从而导致3近邻分类结果出现差异,分类为红。
文档评论(0)