第三章机器学习概述.pdf

下载文档

76
0
约2.43万字
约 33页
2017-04-11 发布于四川
举报
版权申诉
保障服务

第三章机器学习概述.pdf

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章机器学习概述

第三章机器学习概述机器学习是对能通过经验自动改进的计算机算法的研究。 — Mitchell [1997] 在介绍人工神经网络之前，我们先来了解下机器学习的基本概念。通俗地讲，机器学习（Machine Learning，ML）就是如何让计算机从数据中进行学习，得到某种知识（或规律）。稍微正式一点的定义为：机器学习是指一类问题以及解决这类问题的方法，主要是研究如何从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。机器学习问题在早期的工程领域也经常称为模式识别（Pattern Recogni- tion,PR），但模式识别更偏向于具体的应用任务，比如光学字符识别、语音识别，人脸识别等。这些任务的特点是我们人类很容易做到，但我们不知道自己是如何做到的，因此也很难人工设计一个计算机程序来解决这些任务。一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上学习其中的规律，并用来完成各种识别任务。随着机器学习技术的应用越来越广，现在机器学习的概念逐渐替代模式识别，成为这一类方法的统称。以手写体数字识别为例，我们需要让计算机能自动识别手写的数字。比如像图3.1中的例子，将识别为 5，将识别为 6。手写数字识别是一个经典的机器学习任务，对人类来说很简单，但对计算机来说十分困难。设计一套识别算法几乎是不可能的任务。我们很难总结每个数字的手写体特征，或者区分不同数字的规则。在现实生活中，很多问题都类似于手写体数字识别这类问题，比如物体识别、语音识别等。我们不知道如何如何来让程序实现，即使可以通过 2 第三章机器学习概述图 3.1: 手写体数字识别示例。图片来源：MNIST数据集 [LeCun et al., 1998] 一些启发式规则来实现也是极其复杂的。因此，人们尝试采用另一种思路，即让计算机“看”大量的样本，并从中学习到一些经验，然后用这些经验来识别新的样本。这就是机器学习的思路。还是以手写体数字识别为例，机器学习方法首先需要人工标注的大量手写体数字图像（即每个图像都人工标记了它是什么数字）作为训练样本集合，然后通过学习算法自动生成一套模型，并依靠它来识别新的手写体数字。这和人类学习过程也比较类似，我们教小孩子识别数字也是这样的过程。 3.1 机器学习定义狭义地讲，机器学习是给定一些训练样本 (x(i), y(i)), 1 ≤ i ≤ N （其中， x(i)是观测样本，y(i)是需要预测的目标），让计算机自动寻找一个决策函数f(·) 来建立x(i)和y(i)之间的关系。这样对于一个新的输入样本x，我们可以通过决策函数来预测目标 y。 y = f(?(x), θ), (3.1) 这里，θ表示决策函数 f(·)的参数，?(x) ∈ Rd表示样本x对应的特征，一般为向量形式。样本 x不一定都是数值型的，因此需要通过?(x) 将x转换为数值型表示。在机器学习的应用中，样本x的类型多种多样，比较有代表性的类型为文本、音频、图像、视频等。在数字手写体识别中，样本x为待识别的图像，类邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/2 3.1机器学习定义 3 f(?(x), θ?) 模型输入 x 输出 y 学习算法 {x(i), y(i)}Ni=1 训练样本集合图 3.2: 机器学习系统示例别y ∈ {0, 1, · · · , 9}分别对应10个不同数字。为了识别x是什么数字，我们可以从图像中抽取一些特征，这些特征可以是直方图、宽高比、水平、垂直、对角线方向上的像素百分比、笔画数等。假设我们总共抽取了 d个特征，这些特征可以表示为一个向量?(x) ∈ Rd。在情感分类中，样本x为自然语言文本，类别 y ∈ {+1,?1}分别表示正面或负面的评价。为了将样本x从文本形式转为为向量形式，我们可以使用词袋模型（Bag-of-Words,BoW）模型。假设训练样本对应的词典V中包含v个词，则每个文本可以表示为一个维度为v的向量?(x) ∈ Rv，向量中每一维对应词典中的一个词。如果向量中某一维对应的词在文本中出现，其值为 1，否则为 0。机器学习系统的示例见图3.2。对一个预测任务，输入为x，输出为y。我们需要提取特征?(x)，再选择一个模型，即决策函数f(?(x), θ)，其中θ为模型参数，需要通过学习算法在一组训练样本上来得到一个最优的参数 θ?。通过训练样本来求解参数的过程也叫做机器学习的训练过程。有了模型 f(?(x), θ?)，我们就可以对任何输入x进行预测。为了简单起见，我们直接用向量x来表示样本x的特征向量，即?(x) = x。公式3.1也可以直接写为 y = f(x, θ).