数据挖掘基础及其应用 课件 第4章 分类I概念与决策树算法.pptx

数据挖掘基础及其应用 课件 第4章 分类I概念与决策树算法.pptx

数据挖掘基础及其应用课件

第4章 分类I:概念与决策树算法4.1 引言4.2 决策树4.3 决策树原理与构建4.4 补充算法4.5 过拟合/欠拟合4.6 分类准确性评估本章小结4.1 引 言4.1.1 分类的定义 简单地说,分类 (CategorizationorClassification)就是按照某种标准给对象 贴 标 签(Label),再根据标签进行区分归类,而聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 这两者的区别是:分类是事先定义好类别,且类别数不变,分类器需要由人工标注的训练样本学习得到,属于有指导学习范畴;聚类则没有事先预定的类别,类别数不确定,分类器不需要人工标注和预先训练,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,如多文档文摘、搜索引擎结果后聚类(元搜索)等。 分类的目的是学习一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量。 定义4.1 通过对训练集(已知类别属性的数据)进行学习构建一个函数,利用这个函数可以尽可能准确地对测试集(未知类别属性的数据)

文档评论(0)

1亿VIP精品文档

相关文档