数据挖据.docVIP

  • 10
  • 0
  • 约8.31千字
  • 约 11页
  • 2017-08-07 发布于云南
  • 举报
数据挖掘算法总结 1.分类算法 分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值。 分类流程: 训练:训练集——特征选取——训练——分类器 分类:新样本——特征选取——分类——判决 主要的分类算法: 决策树 在20世纪70年代后期和80年代初期,机器学习研究者J.Ross.Quinlan开发了决策树算法,称作ID3.后来又提出C4.5算法;1984年几位统计学家出版了分类与回归树(CART).决策树归纳是经典的分类算法。它采用自顶向下递归的分治方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。 KNN法(适用于标称型和数值型数据) KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本

文档评论(0)

1亿VIP精品文档

相关文档