人工智能十大算法总结.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5-1 简述机器学习十大算法的每个算法的核心思想、工作原理、适用 情况及优缺点等。 1)C4.5 算法: ID3 算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益,并选取具有最 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝 3)能处理非离散的数据 4)能处理不完整的数据 C4.5 算法优点:产生的分类规则易于理解,准确率较高。 1)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2)C4.5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。 其中N 为样本数,K 是簇数,rnk b 表示n 属于第k 个簇,uk 是第k 个中心点的值。 然后求出最优的uk 优点:算法速度很快 缺点是,分组的数目k 是一个输入参数,不合适的k 可能返回较差的结果。 3)朴素贝叶斯算法: 但朴素贝叶斯算法简单,快速,具有较小的出错率。在朴素贝叶斯的应用中,主要研究了电子邮件过滤以及文本分类研究。 4)K 最近邻分类算法(KNN) 缺点: 1)K 值需要预先设定,而不能自适应 2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的 K 个邻居中大容量类的样 本占多数。 该算法适用于对样本容量比较大的类域进行自动分类 。 5)EM 最大期望算法 是google 的页面排序算法,是基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性 。(也就是说, 一个人有着越多牛X 朋友的人,他是牛X 的概率就越大。) 优点:完全独立于查询,只依赖于网页链接结构,可以离线计算 。 缺点:1)PageRank 算法忽略了网页搜索的时效性 。 2)旧网页排序很高,存在时间长,积累了大量的in-links,拥有最新资讯的新网页排名却很低 ,因为它们几乎没有in-links。 7)AdaBoost Adaboost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分 类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来 确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。 整个过程如下所示: 1. 先通过对N 个训练样本的学习得到第一个弱分类器; 2. 将分错的样本和其他的新数据一起构成一个新的N 个的训练样本,通过对这个样本的学习得到第二个弱分类器; 3. 将和都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器; 4. 如此反复,最终得到经过提升的强分类器。 目前AdaBoost 算法广泛的应用于人脸检测、目标识别等领域。 8)Apriori 算法 Apriori 算法是一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系,其核心是基于两阶段频集思想的递推算法 。 Apriori 算法分为两个阶段:1)寻找频繁项集 2)由频繁项集找关联规则 算法缺点: 1) 在每一步产生侯选项目集时循环产生的组合过多 ,没有排除不应该参与组合的元素 ; 2) 每次计算项集的支持度时,都对数据库中的全部记录进行了一遍扫描比较,需要很大的 I/O 负载。 9)SVM 支持向量机 支持向量机是一种基于分类边界的方法。其基本原理是(以二维数据为例):如果训练数据分布在二维平面上的点,它们按照其分类聚集在不同的 区域。基于分类边界的分类算法的目标是,通过训练,找到这些分类之间的边界(直线的――称为线性划分,曲线的――称 为非线性划分)。对于多维数据(如N 维),可以将它们视为N 维空间中的点,而分类边界就是N 维空间中的面,称为超面(超面比N维空间少一 维)。线性分类器使用超平面类型的边界,非线性分类器使用超曲面。 支持向量机的原理是将低维空间的点映射到高维空间,使它们成为线性可分,再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划 分,而在原有的数据空间中,是一种非线性划分。SVM 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到 函数拟合等其他机器学习问题中。 10)CART 分类与回归树 是一种决策树分类方法,采用基于最小距离的基尼指数估计函数 ,用来决定由该子数据集生成的决策树的拓展形 。如果目标变量是标称的,称为分 类树;如果目标变量是连续的,称为回归树。分类树是使用树结构算法将数据分成离散类

文档评论(0)

Lianggedan + 关注
实名认证
文档贡献者

年轻人,不能太心急。稳打稳扎才能脚踏实地。

1亿VIP精品文档

相关文档