《机器学习经典算法》.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
adaboost算法的一些实际可以使用的场景: 1)用于二分类或多分类的应用场景 2)用于做分类任务的baseline 3)用于特征选择(feature selection) 4)Boosting框架用于对badcase的修正 七、K-means K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 K-means步骤 1 设置初始类别中心和类别数; 2 根据类别中心对数据进行类别划分; 3 重新计算当前类别划分下每类的中心; 4 在得到类别中心下继续进行类别划分; 5 如果连续两次的类别划分结果不变则停止算法;否则循环步骤2~5 ; k-means算法的性能分析 主要优点: 是解决聚类问题的一种经典算法,简单、快速。 对处理大数据集,该算法是相对可伸缩和高效率的。 当结果簇是密集的而簇间区别是明显的时,它的效果较好。 主要缺点 必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 不适合于发现非凸面形状的簇或者大小差别很大的簇。 对于“躁声”和孤立点数据是敏感的,因为簇的中心是通过计算数据的平均值得到的,这些数据的存在会使聚类的中心发生很大的偏移。 八、EM * * 经典算法 机器学习十大经典算法 C4.5 分类与回归树 朴素贝叶斯 支持向量机(SVM) K近邻(KNN) AdaBoost K均值(K-means) 最大期望(EM) Apriori算法 Pagerank 机器学习方法的分类 基于学习方式的分类 (1)有监督学习:输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。 (2)无监督学习:输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。 (3)强化学习(增强学习):以环境反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。 有监督学习(用于分类) 标定的训练数据 训练过程:根据目标输出与实际输出的误差信号来调节参数 典型方法 全局:BN, NN,SVM, Decision Tree 局部:KNN、CBR(Case-base reasoning) S(x)=0 Class A S(x)0 Class B S(x)=0 Objects X2 (area) (perimeter) X1 Object Feature Representation 无监督学习(用于聚类) 不存在标定的训练数据 学习机根据外部数据的统计规律(e.g. Cohension divergence )来调节系统参数,以使输出能反映数据的某种特性。 典型方法 K-means、SOM…. 示例:聚类 半监督学习 结合(少量的)标定训练数据和(大量的)未标定数据来进行学习 典型方法 Co-training、EM、Latent variables…. 一、C4.5 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。 决策树的优势在于不需要任何领域知识或参数设置,产生的分类规则易于理解,准确率较高。适合于探测性的知识发现。 缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 增益比率度量是用增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)来共同定义的 设S代表训练数据集,由s个样本组成。A是S的某个属性,有m个不同的取值,根据这些取值可以把S划分为m个子集,Si表示第i个子集(i=1,2,…,m),|Si|表示子集Si中的样本数量。 数据集如图1所示,它表示的是天气情况与去不去打高尔夫球之间的关系 二、分类和回归树(Classification and Regression Trees——CART,可简写为CRT) CART算法中的每一次分裂把数据分为两个子集,每个子集中的样本比被划分之前具有更好的一致性。它是一个递归的过程,也就是说,这些子集还会被继续划分,这个过程不断重复,直到满足终止准则,然后通过修剪和评估,得到一棵最优的决策树。 在ID3算法中,用“熵”来度量数据集随机性的程度。在CART中我们把这种随机性的程

文档评论(0)

189****2507 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档