- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
预测建模、监督机器学习和模式分类概览
模式分类(pattern classification)和机器学习(machine learning)是非常热的话题,几乎在所有的现代应用程序中都得到了应用:例如邮局中的光学字符识别(OCR),电子邮件过滤,超市条形码扫描,等等。
在这篇文章中,我会简要描述一个典型的监督学习任务的主要概念,这些概念将作为将来的文章和实现各种学习算法的基础。
机器学习和模式分类
预测建模是建立一个能够进行预测的模型的通用概念。通常情况下,这样的模型包括一个机器学习算法,以便从训练数据集中学习某些属性做出这些预测。
预测建模可以进一步分成两个子集:回归和模式分类。回归模型基于变量和趋势之间的关系的分析,以便做出关于连续变量的预测,如天气预报的最高温度的预测。
与回归模型不同,模式分类的任务是分配离散的类标签到特定的observation作为预测的结果。回到上面的例子:在天气预报中的模式分类任务可能是一个晴天、雨天或雪天的预测。
抛开所有的可能性,本文的重点将放在“模式分类”,分配预先定义的类标签到特定实例将它们分成不同的类别的一般方法。“实例”是“observation”或“样本”的同义词,描述由一个或多个特征(或称为“属性”)组成的“对象”。
监督学习、无监督学习和强化学习
模式分类任务可被分成两个主要的子类别:监督学习和无监督学习。在监督学习中,用于构建分类模型的数据的类标签是已知的。例如,一个垃圾邮件过滤的数据集,它里面将包含垃圾邮件以及“火腿”(=不是垃圾邮件)消息。在有监督的学习问题中,我们已经知道了训练集中的邮件要么是垃圾邮件,要么是火腿。我们将会使用这些信息来训练我们的模型,以达到能对新增的不明确的邮件进行分类。
上图显示了一个典型的分类任务,用到的样本具有两个随机变量;训练数据(带有类标记)用图中的散点表示。红色点划线表明了线性决策(左侧)或者二次决策(右侧)的边界,这些边界决定了R1和R2的决策区域。新的observation将会根据它们所在的区域而被分配类标签“w1”或“w2”。对于那些未知的实例,我们已经假定我们的分类方法不是完美的,会有一定比例的样本可能被错误分类。
如果你对决策边界是如何被算出来的有兴趣,你可以查看我的模式分类库中的“统计模式分类示例”这一节的关于“IPython”部分的内容。
与此相反,无监督学习任务处理未标记的实例,并且这些类必须从非结构化数据集中推断出来。通常情况下,无监督学习采用聚类技术,使用基于一定的相似性(或距离)的度量方式来将无标记的样本进行分组。
第三类的学习算法使用“强化学习”这个概念来描述。在这种算法中,模型是通过一系列的操作而最大化“奖励函数”来进行学习。奖励函数的最大化,可以通过惩罚“坏行为”,和/或通过奖励“好行为”来实现。强化学习的一个常见的例子是根据环境反馈而进行学习自动驾驶的训练过程。我最近还偶然发现了强化学习的另外一个很好的例子,就是训练游戏“Flappy Bird”,使它能够自己玩。
监督学习 - 一个典型的工作流程
现今,当在“数据科学”领域开始引入各种概念的时候,著名的“鸢尾花(Iris)”花数据集可能是最常用的一个例子。1936年,R.A.Fisher在他的判别分析中创建和使用了Iris数据集。Iris现在可以从UCI机器学习库中免费得到。
在一个监督分类任务中,它将会是一个很好的例子。Iris中的花被分为了三类:Setosa , Virginica , 和Versicolor .而这150个实例中的每一个样本(单花)都有四个属性:
萼片的宽度
萼片的长度
花瓣的宽度
花瓣的高度
(所有测量单位都是厘米)
可视化
当我们需要处理一个新的数据集时,采用简单的可视化技术来解释数据分析是非常有用的,因为人的眼睛在发现模式方面是非常强大的。然而,有时我们必须处理的数据由三个以上的维度构成,这样就无法在一副图像中表达出来了。为了克服这种限制,一种方式可以将属性集分解成成对的属性集,然后创建一个散点图矩阵。在实践中,“良好的且有用的”可视化技术的选择高度依赖于数据的类型,特征空间的维数,和现实情况。
下面是Iris数据集的可视化的几个例子,或多或少有用。
用来创建这些图形的代码可以在“可视化技术进行探索性数据分析”一节中的IPython部分Matplotlib例子中找到。
根据上面的那些图,特别是散点图和(1D)直方图,我们已经可以看到,相对于三种不同的花,花瓣包含的辨别信息相对于花萼来说要更多一些,因为图形中花萼的宽度和长度差别更小一些。那么,该信息就可以用于特征选择,以去除噪声和减少我们的数据集的大小。
工作流程图
在下面的章节中,我们将会看到一些典型的监督学习任务的主要步骤,下图可以让我们直观地了解它们是如何连接的。
原始数据
文档评论(0)