- 11
- 0
- 约4.37千字
- 约 13页
- 2016-12-12 发布于北京
- 举报
数据挖掘十大经典算法总结内容C4.5The k-means algorithm即K-Means算法Support vector machinesThe Apriori algorithm最大期望(EM)算法PageRankAdaBoostkNN:k-nearest neighbor classificationNaive BayesCART:分类与回归树C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。 C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。The k-means algorithm即K-Means算法k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k n。它与处理混合正态分布的最大期望算法很相似,因为它们都试图找到数据中自然聚类的中心。它假设对象属性来自于
原创力文档

文档评论(0)