第2章 机器学习概述.PDFVIP

  • 59
  • 0
  • 约6万字
  • 约 32页
  • 2018-08-07 发布于天津
  • 举报
第2章 机器学习概述.PDF

第2 章 机器学习概述 机器学习是对能通过经验自动改进的计算机算法的研究。 — Mitchell [1997] 通俗地讲,机器学习 (machine learning ,ML )就是让计算机从数据中进 行自动学习,得到某种知识(或规律)。作为一门学科,机器学习通常指一类 问题以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利 用学习到的规律(模型)对未知或无法观测的数据进行预测。 机器学习问题在早期的工程领域也经常称为模式识别(pattern recognition , PR ),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别, 人脸识别等。这些任务的特点是对于我们人类而言,这些任务很容易完成,但 我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来解决这 些任务。一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上 学习其中的规律,并用来完成各种识别任务。随着机器学习技术的应用越来越 广,现在机器学习的概念逐渐替代模式识别,成为这一类问题及其解决方法的 统称。 以手写体数字识别为例,我们需要让计算机能自动识别手写的数字。比如 图2.1 中的例子,将 识别为数字 ,将 识别为数字 。手写数字识别是一个经 5 6 典的机器学习任务,对人来说很简单,但对计算机来说却十分困难。我们很难 总结每个数字的手写体特征,或者区分不同数字的规则,因此设计一套识别算 法几乎是一项几乎不可能的任务。在现实生活中,很多问题都类似于手写体数 字识别这类问题,比如物体识别、语音识别等。对于这类问题,我们不知道如 何设计一个计算机程序来解决,即使可以通过一些启发式规则来实现,其过程 也是极其复杂的。因此,人们开始尝试采用另一种思路,即让计算机“看”大量 的样本,并从中学习到一些经验,然后用这些经验来识别新的样本。要识别手 写体数字,首先通过人工标注大量的手写体数字图像(即每张图像都通过人工 标记了它是什么数字),这些图像作为训练数据,然后通过学习算法自动生成一 20 2018 年 7 月4 日 第2 章 机器学习概述 套模型,并依靠它来识别新的手写体数字。这和人类学习过程也比较类似,我 们教小孩子识别数字也是这样的过程。这种通过数据来学习的方法就称为机器 学习的方法。 图2.1 手写体数字识别示例。图片来源:MNIST 数据集[LeCun et al., 1998] 本章先介绍机器学习的基本概念和要素,并较详细地描述一个简单的机器 学习例子,线性回归。 2.1 基本概念 首先介绍下机器学习中的一些基本概念:包括样本、特征、标签、模型、学 习算法等。 以一个生活中的经验学习为例,假设我们要到市场上购买芒果,但是之前 毫无挑选芒果的经验,那么我们如何通过学习来获取这些知识? 特征也可以称为属性 首先,我们从市场上随机选取一些芒果,列出每个芒果的特征 (feature ), (attribute)。 包括颜色,大小,形状,产地,品牌,以及我们需要预测的标签 (label )。标 签可以连续值(比如关于芒果的甜度、水分以及成熟度的综合打分),也可以是 离散值(比如“好”“坏”两类标签)。 样本(sample),也叫示 一个标记好特征以及标签的芒果可以看作是一个样本(sample )。一组样本 例(instance)。 构成的集合称为数据集 (data set )。一般将数据集分为两部分:训练集和测试 集。训练集(

文档评论(0)

1亿VIP精品文档

相关文档