数据挖掘基础及其应用课件第4章分类I概念与决策树算法.pptx

下载文档

4
0
约1.31万字
约 131页
2023-02-17 发布于山东
举报
保障服务

数据挖掘基础及其应用课件第4章分类I概念与决策树算法.pptx

数据挖掘基础及其应用课件

第4章分类I:概念与决策树算法4.1 引言4.2 决策树4.3 决策树原理与构建4.4 补充算法4.5 过拟合/欠拟合4.6 分类准确性评估本章小结4.1 引言4.1.1 分类的定义　简单地说,分类 (CategorizationorClassification)就是按照某种标准给对象贴标签(Label),再根据标签进行区分归类,而聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。　这两者的区别是:分类是事先定义好类别,且类别数不变,分类器需要由人工标注的训练样本学习得到,属于有指导学习范畴;聚类则没有事先预定的类别,类别数不确定,分类器不需要人工标注和预先训练,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,如多文档文摘、搜索引擎结果后聚类(元搜索)等。　分类的目的是学习一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量。　定义4.1 通过对训练集(已知类别属性的数据)进行学习构建一个函数,利用这个函数可以尽可能准确地对测试集(未知类别属性的数据)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘基础及其应用课件第4章分类I概念与决策树算法.pptx