监督学习算法基础知识整理 (2).docVIP

下载本文档

2
0
约 22页
2017-06-15 发布于四川
举报
版权申诉

监督学习算法基础知识整理 (2).doc

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

监督学习算法监督学习又称为分类（Classification）或者归纳学习（Inductive Learning）。几乎适用于所有领域，包括文本和网页处理。给出一个数据集D，机器学习的目标就是产生一个联系属性值集合A和类标集合C的分类/预测函数（Classification/Prediction Function），这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型（Classification Model）、预测模型（Prediction Model）。这个分类模型可以是任何形式的，例如决策树、规则集、贝叶斯模型或者一个超平面。在监督学习（Supervised Learning）中，已经有数据给出了类标；与这一方式相对的是无监督学习（Unsupervised Learning），在这种方式中，所有的类属性都是未知的，算法需要根据数据集的特征自动产生类属性。其中算法中用于进行学习的数据集叫做训练数据集，当使用学习算法用训练数据集学习得到一个模型以后，我们使用测试数据集来评测这个模型的精准度。机器学习的最基本假设：训练数据的分布应该与测试数据的分布一致。训练算法：训练算法就是给定一组样本，我们计算这些参数的方法。本节简要介绍以下几种常用的机器学习算法，比如决策树，朴素贝叶斯，神经网络，支持向量机，线性最小平方拟合，kNN，最大熵等。 3.1 两类感知器见课本 3.2 多类感知器见课本 3.3 决策树算法决策树学习算法是分类算法中最广泛应用的一种技术，这种算法的分类精度与其他算法相比具有相当的竞争力，并且十分高效。决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象属性，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值（类别）。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。决策树的生成：由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。 1. 树以代表训练样本的单个结点开始。 2. 如果样本都在同一个类．则该结点成为树叶，并用该类标记。 3. 否则，算法选择最有分类能力的属性作为决策树的当前结点。 4. 根据当前决策结点属性取值的不同，将训练样本数据集分为若干子集，每个取值形成一个分枝。 5. 针对上一步得到的一个子集，重复进行先前步骤，形成每个划分样本上的决策树。 6. 递归划分步骤仅当下列条件之一成立时停止： (a) 给定结点的所有样本属于同一类。 (b) 没有剩余属性可以用来进一步划分样本。以样本组中个数最多的类别作为类别标记。决策树的剪技：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数扼集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因，都会造成产生的决策树过大。因此，简化决策树是一个不可缺少的环节。寻找一棵最优决策树，主要应解决以下3个最优化问题： 1. 生成最少数目的叶子节点； 2. 生成的每个叶子节点的深度最小； 3. 生成的决策树叶子节点最少且每个叶子节点的深度最小。例如，对于表3-1所示的贷款申请的数据集，可以学习到一种决策树结构，表示为图3-1。表3-1 贷款申请数据根据数据集建立的一种决策树结构如下：图3-1 对应与表3-1的决策树树中包含了决策点和叶子节点，决策点包含针对数据实例某个属性的一些测试，而一个叶子节点则代表了一个类标。一棵决策树的构建过程是不断的分隔训练数据，以使得最终分隔所得到的各个子集尽可能的纯。一个纯的子集中的数据实例类标全部一致。决策树的建立并不是唯一的，在实际中，我们希望得到一棵尽量小且准确的决策树。决策树的典型算法有ID3，C4.5，CART（分类与回归树）等。依次得到改进。相对于其它算法，决策树易于理解和实现，人们在通过解释后都有能力去理解决策树所表达的意义。决策树可以同时处理不同类型的属性, 并且在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 3.4 贝叶斯分类算法贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、BAN和GBN。 ▲准备知识条件概率：设A, B是两个事件，且称为在条件A