数据挖掘基础展示.pptVIP

  • 3
  • 0
  • 约6.72千字
  • 约 59页
  • 2016-12-31 发布于贵州
  • 举报
准备分类和预测的数据 通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性 数据清理 消除或减少噪声,处理空缺值,从而减少学习时的混乱 相关性分析 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确 数据变换 可以将数据概化到较高层概念,或将数据进行规范化 比较分类方法 使用下列标准比较分类和预测方法 预测的准确率:模型正确预测新数据的类编号的能力 速度:产生和使用模型的计算花销 鲁棒性:给定噪声数据或有空缺值的数据,模型正确预测的能力 可伸缩性:对大量数据,有效的构建模型的能力 可解释性:学习模型提供的理解和洞察的层次 用判定树归纳分类 什么是判定树? 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布 判定树的生成由两个阶段组成 判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 判定树的使用:对未知样本进行分类 通过将样本的属性值与判定树相比较 判定归纳树算法 判定归纳树算法(一个贪心算法) 自顶向下的分治方式构造判定树 树以代表训练样本的单个根节点开始 使用分类属性(如果是量化属性,则需先进行离散化) 递归的通过选择

文档评论(0)

1亿VIP精品文档

相关文档