机器学习十大算法的每个算法的核心思想、工作原理、适用情况跟优缺点.pdf

下载文档 降价啦

9
0
约3.71千字
约 7页
2018-11-06 发布于湖北
举报
版权申诉
保障服务

机器学习十大算法的每个算法的核心思想、工作原理、适用情况跟优缺点.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习十大算法的每个算法的核心思想、工作原理、适用情况跟优缺点

5-1 简述机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点等 1 C4.5 ）算法： ID3算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类 ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性 C4.5算法核心思想是ID3算法，是ID3算法的改进，改进方面有： 1）用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2）在树构造过程中进行剪枝 3）能处理非离散的数据 4）能处理不完整的数据 C4.5算法优点：产生的分类规则易于理解，准确率较高缺点： 1)在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效 2)C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行 2 Kmeans ）算法：是一个简单的聚类算法，把n的对象根据他们的属性分为k个分 J, 割，k<n 算法的核心就是要优化失真函数使其收敛到局部最小值但不是全局最小值 N K rnkb ，其中为样本数，是簇数，表 n k uk k 示属于第个簇，是第个中心点的值然后求出最优的uk 优点：算法速度很快缺点是，分组的数目k是一个输入参数，不合适的k可能返回较差的结果 3）朴素贝叶斯算法：朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。算法的基础是概率问题，分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类朴素贝叶斯假设是约束性很强的假设，假设特征条件独立，但朴素贝叶斯算法简单，快速，具有较小的出错率在朴素贝叶斯的应用中，主要研究了电子邮件过滤以及文本分类研究 4)K最近邻分类算法（KNN） K 分类思想比较简单，从训练样本中找出个与其最相近的样本，然后看这个样本中哪个类别的样本多，则待判定的值（或说抽样）k 就属于这个类别缺点： 1 K ）值需要预先设定，而不能自适应 2）当样本不平衡时，如一个类的样本容量很大，而其他类样本容 K 量很小时，有可能导致当输入一个新样本时，该样本的个邻居中大容量类的样本占多数该算法适用于对样本容量比较大的类域进行自动分类 5)EM最大期望算法 EM算法是基于模型的聚类方法，是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量 E步 M 估计隐含变量，步估计其他参数，交替将极值推向最大 EM算法比K-means算法计算复杂，收敛也较慢，不适于大规模数据集和高维数据，但比K-means算法计算结果稳定、准确 EM经常用在机器学习和计算机视觉的数据集聚（DataClustering）领域 6）PageRank算法是google的页面排序算法，是基于从许多优质的网页链接过来的网页，必定还是优质网页的回归关系，来判定所有网页的重要性（也就是说，一个人有着越多牛朋友的人，他是牛的概率就越大）优点：完全独立于查询，只依赖于网页链接结构，可以离线计算缺点： 1 PageRank ）算法忽略了网页搜索的时效性 2）旧网页排序很高，存在时间长，积累了大量的in-