- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习十大算法的每个算法的核心思想、工作原理、适用情况跟优缺点
5-1 简述机器学习十大算法的每个算法的核心思想、工作原理、适用
情况及优缺点等
1 C4.5
) 算法:
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,
从而实现对数据的归纳分类 ID3算法计算每个属性的信息增益,并
选取具有最高增益的属性作为给定的测试属性
C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向
选择取值多的属性的不足;
2)在树构造过程中进行剪枝
3)能处理非离散的数据
4)能处理不完整的数据
C4.5算法优点:产生的分类规则易于理解,准确率较高
缺点:
1)在构造树的过程中,需要对数据集进行多次的顺序扫描
和排序,因而导致算法的低效
2)C4.5只适合于能够驻留于内存的数据集,当训练集大得
无法在内存容纳时程序无法运行
2 Kmeans
) 算法:
是一个简单的聚类算法,把n的对象根据他们的属性分为k个分
J,
割,k<n 算法的核心就是要优化失真函数 使其收敛到局部最小
值但不是全局最小值
N K rnkb
,其中 为样本数, 是簇数, 表
n k uk k
示 属于第 个簇, 是第 个中心点的值
然后求出最优的uk
优点:算法速度很快
缺点是,分组的数目k是一个输入参数,不合适的k可能返回较
差的结果
3)朴素贝叶斯算法:
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方
法。算法的基础是概率问题,分类原理是通过某对象的先验概率,利
用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择
具有最大后验概率的类作为该对象所属的类 朴素贝叶斯假设是约束
性很强的假设,假设特征条件独立,但朴素贝叶斯算法简单,快速,
具有较小的出错率
在朴素贝叶斯的应用中,主要研究了电子邮件过滤以及文本分类
研究
4)K最近邻分类算法(KNN)
K
分类思想比较简单,从训练样本中找出 个与其最相近的样本,
然后看这 个样本中哪个类别的样本多,则待判定的值(或说抽样)k
就属于这个类别
缺点:
1 K
) 值需要预先设定,而不能自适应
2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容
K
量很小时,有可能导致当输入一个新样本时,该样本的 个邻居中
大容量类的样本占多数
该算法适用于对样本容量比较大的类域进行自动分类
5)EM最大期望算法
EM算法是基于模型的聚类方法,是在概率模型中寻找参数最大
似然估计的算法,其中概率模型依赖于无法观测的隐藏变量 E步
M
估计隐含变量, 步估计其他参数,交替将极值推向最大
EM算法比K-means算法计算复杂,收敛也较慢,不适于大规模
数据集和高维数据,但比K-means算法计算结果稳定、准确 EM经
常用在机器学习和计算机视觉的数据集聚(DataClustering)领域
6)PageRank算法
是google的页面排序算法,是基于从许多优质的网页链接过来的
网页,必定还是优质网页的回归关系,来判定所有网页的重要性 (也
就是说,一个人有着越多牛 朋友的人,他是牛 的概率就越大 )
优点:
完全独立于查询,只依赖于网页链接结构,可以离线计算
缺点:
1 PageRank
) 算法忽略了网页搜索的时效性
2)旧网页排序很高,存在时间长,积累了大量的in-
文档评论(0)