机器学习10大算法-周辉.docVIP

下载本文档

6
0
约2.5千字
约 7页
2020-04-18 发布于河北
举报
版权申诉

机器学习10大算法-周辉.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习10大算法什么是机器学习呢？从广泛的概念来说，机器学习是人工智能的一个子集。人工智能旨在使计算机更智能化，而机器学习已经证明了如何做到这一点。简而言之，机器学习是人工智能的应用。通过使用从数据中反复学习到的算法，机器学习可以改进计算机的功能，而无需进行明确的编程。机器学习中的算法有哪些？如果你是一个数据科学家或机器学习的狂热爱好者，你可以根据机器学习算法的类别来学习。机器学习算法主要有三大类：监督学习、无监督学习和强化学习。监督学习使用预定义的“训练示例”集合，训练系统，便于其在新数据被馈送时也能得出结论。系统一直被训练，直到达到所需的精度水平。无监督学习给系统一堆无标签数据，它必须自己检测模式和关系。系统要用推断功能来描述未分类数据的模式。强化学习强化学习其实是一个连续决策的过程，这个过程有点像有监督学习，只是标注数据不是预先准备好的，而是通过一个过程来回调整，并给出“标注数据”。机器学习三大类别中常用的算法如下： 1. 线性回归工作原理：该算法可以按其权重可视化。但问题是，当你无法真正衡量它时，必须通过观察其高度和宽度来做一些猜测。通过这种可视化的分析，可以获取一个结果。回归线，由Y = a * X + b表示。 Y =因变量；a=斜率；X =自变量；b=截距。通过减少数据点和回归线间距离的平方差的总和，可以导出系数a和b。 2. 逻辑回归根据一组独立变量，估计离散值。它通过将数据匹配到logit函数来帮助预测事件。下列方法用于临时的逻辑回归模型: 添加交互项。消除功能。正则化技术。使用非线性模型。 3. 决策树利用监督学习算法对问题进行分类。决策树是一种支持工具，它使用树状图来决定决策或可能的后果、机会事件结果、资源成本和实用程序。根据独立变量，将其划分为两个或多个同构集。决策树的基本原理：根据一些 feature 进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上。优点：与回归一样，决策树组合在实践中表现也很好。由于它们的分层结构，它们对离群值、可伸缩性和自然模型的非线性决策边界具有鲁棒性。弱点：无约束，单个树容易过度拟合，但这可以通过集成方法来缓解。 4. 支持向量机（SVM）基本原理（以二维数据为例）：如果训练数据是分布在二维平面上的点，它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是，通过训练，找到这些分类之间的边界（直线的――称为线性划分，曲线的――称为非线性划分）。对于多维数据（如N维），可以将它们视为N维空间中的点，而分类边界就是N维空间中的面，称为超面（超面比N维空间少一维）。线性分类器使用超平面类型的边界，非线性分类器使用超曲面。要将两类分开，想要得到一个超平面，最优的超平面是到两类的 margin 达到最大，margin就是超平面与离它最近一点的距离。优点：SVM可以模拟非线性决策边界，并且有很多内核可供选择。它可用于防止过度拟合，特别是在高维空间中。缺点：SVM的内存密集，调优的难度很大，并且不能很好地扩展到更大的数据集。目前在行业中，随机森林通常优于SVM。应用：显示广告。人类剪切位点识别（human splice site recognition）。基于图像的性别检测。大规模图像分类等。 5. 朴素贝叶斯朴素贝叶斯认为每个特征都是独立于另一个特征的。即使在计算结果的概率时，它也会考虑每一个单独的关系。它不仅易于使用，而且能有效地使用大量的数据集，甚至超过了高度复杂的分类系统。优点：尽管条件独立性假设很少成立，但朴素贝叶斯模型在实践中表现出色，特别是它们的简单性。它们易于实现，可以与更多的数据集进行扩展。弱点：由于简单性，朴素贝叶斯模型经常在正确训练和调整之前被以前的算法击败。应用: 判断垃圾邮件。对新闻的类别进行分类，如科技、政治、运动。判断文本表达的感情是积极的还是消极的。人脸识别。 6. KNN(K -最近邻) 该算法适用于分类和回归问题。在数据科学行业中，它更常用来解决分类问题。这个简单的算法能够存储所有可用的案例，并通过对其k近邻的多数投票来对任何新事件进行分类。然后将事件分配给与之匹配最多的类。一个距离函数执行这个测量过程。优点：该算法适用于对样本容量比较大的类域进行自动分类。缺点：在计算上是昂贵的（计算量比较大）。变量应规范化。数据需要预处理。 7. k – 均值这种无监督算法用于解决聚类问题。数据集以这样一种方式列在一个特定数量的集群中：所有数据点都是同质的，并且与其他集群中的数据是异构的。优点：算法速度很快。缺点：分组的数目k是一个输