机器学习综述.docxVIP

  • 29
  • 0
  • 约7.65千字
  • 约 14页
  • 2024-04-08 发布于广西
  • 举报

机器学习综述

曹晓敏

摘要:机器学习是计算机领域最活泼,最有潜力的方向之一。本文概述了机器学习当前研究的几个方向:符号机器学习、集成机器学习、增强机器学习、统计机器学习,梳理了各自的理论根底。在此根底上,以统计机器学习为重点,就其一致性、收敛性、推广性以及构造算法的原那么四个核心方面进行了综述,最后提出几点思考和建议。

引言

计算机相比人脑而言在存储、计算方面具有无与伦比的优势,然而,其是否可以具备一定智能,一直以来是科学家们、科幻小说家们致力研究、探索和想象的一片非常广阔的领域。

计算机智能化的起步阶段包含两方面工作:一方面是将人类已有的知识或经验“教”会计算机,从而使计算机成为某个领域的专家,其焦点在于知识库和推理机两方面,已经有比拟成功的案例;另一方面是从大量的数据、现象中,学习产生新的知识或经验,这就是机器学习过程。后者比前者难,前者开展到一定程度会面临同样的问题。目前,机器学习已经成为计算机领域最活泼,最有潜力的研究方向之一,受到了广泛的关注。

机器学习概述

机器学习的经典定义是1997年TomM.Mitchell在“MachineLearning”一书中提出的“计算机利用经验改善系统自身性能的行为。”这是一个相当宽泛的说明,将“机器”限定在“计算机”,而对学习的定义那么过于宽泛以致不便理解。人们通常所说的“学习”是指通过对事实的分析、归纳、演绎,形成新的知识,其目的在于对未知的事实能做出比拟符合实际的判断、指导和预测。其中有四个关键要素:事实、学习方法、新的知识、预判未来。其关系如REF_Ref264796613\h图1所示。

得到

得到

知识

事实

新的

事实

学习方法

指导未来

图SEQ图\*ARABIC1学习过程

对应于REF_Ref264796613\h图1,在机器学习领域,事实对应于“样本空间”,需要预判的新的事实对应于“问题空间”,所得到的知识对应于“构建的模型”。由此,机器学习可以描述为[3]:

令W是问题空间,(x,y)∈W称为样本,其中,x是一个n维矢量,y是类别域中的一个值。由于观察能力的限制,我们只能获得W的一个真子集,记为Q?W,称为样本集合。根据Q建立模型M,并期望M对W中的所有样本预测的正确率大于一个给定的常数θ。

M对W的预测正确率,称为M对W的泛化能力或推广能力。机器学习的本质和目的就是要使得M尽可能接近真实,也就是其泛化〔推广〕能力尽可能强。

然而,机器学习面临的第一个问题就是其问题空间如何表示?即数据描述问题。对于计算机而言,最本质的特征是量化表示以及对数值的处理;对于人类而言,其思考、表达的过程往往借助于语言或图像,而不是数值。由此,诞生了两类不同方向的机器学习领域:基于符号的机器学习,基于数值的机器学习。

1989年,Carbonell指出机器学习有4个研究方向:符号机器学习、连接机器学习、遗传机器学习与分析机器学习。十年过去后,1999年,Dietterich提出了另外4个新的研究方向:符号机器学习、统计机器学习、集成机器学习、增强机器学习。其关系如表1所示[4]。

表SEQ表\*ARABIC1机器学习研究方向变迁

Carbonell,1989

Dietterich,1999

注解

符号机器学习

符号机器学习

保存:发生本质变化,转变成符号数据分析

连接机器学习

统计机器学习

分为:基于Barlow提出的功能单细胞假设为依据

集成机器学习

分为:基于Hebb提出的神经集合体假设为依据

遗传机器学习

增强机器学习

扩展:强调反应的作用,以及动态规划的解决方案

分析机器学习

——

放弃:问题过于复杂

其中,符号机器学习方法最初由于其建立的模型是确定的,不具备泛化能力而被认为不具备竞争能力,然而随着海量信息的出现以及对简洁阅读的要求,符号机器学习重新获得生命力。随着统计机器学习理论和技术的完善,连接机器学习渐渐演变为统计机器学习和集成机器学习。遗传机器学习那么因为理论和技术上进展缓慢而让位给增强机器学习。分析机器学习那么由于至今未能找到理论根底,以及一些当前在理论与技术上暂时无法克服的困难,已根本处于停滞状态。

本文在简略介绍符号机器学习、集成机器学习、增强机器学习的根底上,重点介绍统计机器学习。

符号机器学习

最早的符号机器学习源于1959年Solomonoff关于文法归纳的研究,给定一组语句实例,求出有关文法。传统意义下,这类机器学习也以泛化能力作为主要指标。然而事实上,这类建模方法不建立在统计根底上,不具备泛化能力。1967年,Gold证明了这类学习在理论上存在不可逾越的障碍。

随着海量信息的出现,人们对简约阅读的需求增长,Samuel将这类机器学习演变为一类基于符号数据集合的约简过程,将其赋予了新的含义。这类方法可以将数据集合在可解释的条件下变

文档评论(0)

1亿VIP精品文档

相关文档