- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国机器学习白皮书-中国人工智能学会
中国机器学习白皮书
中国人工智能学会
二○一五年十一月
《中国人工智能系列白皮书》编委会
主 任:李德毅
执行主任:王国胤
副 主 任:杨放春 谭铁牛 黄河燕 焦李成 马少平 刘 宏
蒋昌俊 任福继 杨 强
委 员:陈 杰 董振江 杜军平 桂卫华 韩力群 何 清
黄心汉 贾英民 李 斌 刘 民 刘成林 刘增良
鲁华祥 马华东 马世龙 苗夺谦 朴松昊 乔俊飞
任友群 孙富春 孙长银 王 轩 王飞跃 王捍贫
王万森 王卫宁 王小捷 王亚杰 王志良 吴朝晖
吴晓蓓 夏桂华 严新平 杨春燕 余 凯 余有成
张学工 赵春江 周志华 祝烈煌 庄越挺
《中国机器学习白皮书》编写组
组长:
组员: 庄福振目 录
第1章 引言 1
第2章 主流机器学习技术进展 3
2.1 度量学习 3
2.2 多核学习 7
2.3 多视图学习 10
2.4 集成学习 14
2.5 主动学习 18
2.6 强化学习 22
第3章 新兴机器学习技术选介 27
3.1 迁移学习 27
3.2 深度学习 31
3.3 统计关系学习 34
3.4 演化学习 36
第4章 大数据时代的机器学习 41
4.1 并行机器学习 41
4.2 哈希学习 46
4.3 在线学习 48
第5章 结束语 52
第1章 引言
[1]。机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”[2]。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等),系统对应于数据模型(如决策树、支持向量机等),而性能则是模型对新数据的处理能力(如分类和预测性能等)。因此,机器学习的根本任务是数据的智能分析与建模。
随着信息技术不断向网络化、低成本方向发展,人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。
例如,美国科学院、工程院两院院士T. J. Sejnowski等人2009年在《Science》上撰文指出,机器学习正成为发展新的学科的基础之一[3];美国政府2012年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的《国家中长期科学和技术发展规划纲要》(2006-2020年)中,以机器学习为核心的“智能”关键词在目录中6次出现。特别值得一提的是,计算机界最高奖图灵奖在2010年与2011年连续两年授予机器学习领域的两位杰出学者(L. Valiant,2010年度;J. Pearl,2011年度),这标志着机器学习经过30余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。
本白皮书旨在简要阐述当前机器学习领域的研究和应用现状,主要包括三方面内容:
第2章 主流机器学习技术进展
2.1 度量学习
度量是计量的准则。脱离度量,收集的数据、分析的结果也就丧失了物理意义和现实指征。而距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K近邻分类器、使用了高斯核的核方法;在聚类方法中,K均值聚类、谱聚类方法都与距离度量密切相关。
一般来说,对于任意样本x, y, z而言的[4], 推土机距离EMD[5]等随着机器学习应用面的日益于2003年提出了距离度量学习[6]
对距离度量学习的研究首先始于对马氏距离的深入探讨。对于任意两个d维样本,其马氏距离的平方定义为
.
其中M是度量矩阵并且为了保持距离的非负对称性M应当为对称半正定矩阵一般的距离度量学习针对度量矩阵M展开例如 Xing等人提出的距离度量学习方法在已知某些样本在语义层面相似某些样本的境下引入必连link)和勿连cannot link)约束集和,即相似样本组成的样本对属于必连约束集、相异样本对属于勿连约束集),学习出一个满足给定约束的度量矩阵,为此设法学到一个M,使相似样本间距离尽量小、同时相异样本间距离尽量大,即优化如下式所列的约束优化问题[6]:
其中M半正定必然存在正交基P使得是一个低秩矩阵那么存在正交基,该正交基可以作为降维矩阵使用也即低秩距离度量学习可以衍生出一个降维方法图2-1
图2-1 距离度量学习前后3近邻分类效果示意图,问号为测试样本,训练样本分属于红、黑两个类别。左侧为各向同性的欧氏空间,测试样本根据多数投票应当分类为黑;右侧为度量学习后的空间,可以发现某些特征组合对近邻选取的作用得到了放大/缩小,从而导致3近邻分类结果出现差异,分类为红。
您可能关注的文档
最近下载
- 2025年道路交通安全法律法规知识竞赛题库及答案(共770题) .pdf
- 黑龙江省绥化市2024年中考语文模拟题试题(含解析)[1].doc
- 2025年山西卫生健康职业学院单招职业倾向性测试题库及完整答案1套.docx VIP
- 肱骨近端骨折护理查房.ppt VIP
- 八年级下册物理期中复习(压轴60题19大考点)-八年级下册物理同步知识解读与专题训练(苏科版)(解析版).docx
- 【行业标准】Q∕CR 9205-2015 铁路工程试验表格.pdf
- 遵义会议课件演示.pptx VIP
- 脉管系统—心血管系统(解剖学课件).pptx
- 安达VCD-1000无感矢量变频器使用说明书.pdf
- 中班健康《五官在哪里》.ppt VIP
文档评论(0)