机器学习算法总结.docxVIP

下载本文档

13
0
约9.88千字
约 6页
2019-06-26 发布于江西
举报
版权申诉

机器学习算法总结.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习算法总结 C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART 朴素贝叶斯分类器贝叶斯分类器的分类目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、BAN和GBN。朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器。其原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。更精确的描述这种潜在的概率模型为独立特征模型。简单来说，朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。朴素贝叶斯分类器应用的学习任务中，每个实例可由属性的合取描述，而目标函数从某有限集合V中取值。学习器被提供一系列关于目标函数的训练样例以及新实例（描述为属性值的元组），然后要求预测新实例的目标值（或分类）。贝叶斯方法的新实例分类目标是在给定描述实例的属性值下，得到最可能的目标值。可使用贝叶斯公式重写为朴素贝叶斯分类器基于一个简单的假定：在给定目标值时属性值之间相互条件独立。即，在给定实例的目标值情况下，观察到的的概率等于每个单独属性的概率乘积。于是得到朴素贝叶斯分类器使用的方法：概括的说，朴素贝叶斯学习方法需要估计不同的和项，基于他们在训练数据上的频率。这些估计对应了待学习的假设。然后该假设使用上面式子中的规则来分类新实例。在许多实际应用中，朴素贝叶斯模型参数估计使用最大似然估计方法，换而言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数（变量的均值和方差）。由于变量独立假设，只需要估计各个变量的方法，而不需要确定整个协方差矩阵。朴素贝叶斯分类器依靠精确的自然概率模型，在有监督学习的样本集中能获取得非常好的分类效果。朴素贝叶斯方法有个致命的缺点就是对数据稀疏问题过于敏感。 SVM Support Vector Machine，SVM是一种监督式学习的方法，广泛应用于统计分类以及回归分析中。支持向量机（SVM）是在高维特征空间使用线性函数假设空间的学习系统，它由一个来自最优化理论的学习算法训练，该算法实现了一个由统计学习理论导出的学习偏置。通常希望能够把给定的数据点通过一个维的 \o 超平面超平面分开，通常这个被称为 \o 线性分类器线性分类器。有很多分类器（超平面）都符合这个要求，但是我们希望找到分类最佳的平面，即使得属于两个不同类的数据点间隔最大的那个面，该面亦称为最大间隔超平面。如果我们能够找到这个面，那么这个分类器就称为最大间隔分类器。设样本属于两个类，用该样本训练svm得到的最大间隔超平面。在超平面上的样本点也称为支持向量。支持向量机是一种基于分类边界的方法。其基本原理是（以二维数据为例）：如果训练数据分布在二维平面上的点，它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是，通过训练，找到这些分类之间的边界（直线的――称为线性划分，曲线的――称为非线性划分）。对于多维数据（如N维），可以将它们视为N维空间中的点，而分类边界就是N维空间中的面，称为超面（超面比N维空间少一维）。线性分类器使用超平面类型的边界，非线性分类器使用超曲面。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。 SVM的关键在于核函数。低维空间向量集通常难于划分，解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加，而核函数正好巧妙地解决了这个问题。也就是说，只要选用适当的核函数，就可以得到高维空间的分类函数。在SVM理论中，采用不同的核函数将导致不同的SVM算法。在确定了核函数之后，由于确定核函数的已知数据也存在一定的误差，考虑到推广性问题，因此引入了松弛系数以及惩罚系数两个参变量来加以校正。 SVM有如下主要几个特点： (1)非线性映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射； (2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心； (3)支持向量是SVM的训练结果，在SVM分类决策中起决定作用的是支持向量； (4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等，因此不同于现有的统计方法。从本质上看，它避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预报样本的“转导推理”，大大简化了通常的分类和回归等问题； (5