第5章数据分类-1范例.ppt

数据仓库与数据挖掘 数据仓库与数据挖掘 第5章 数据分类 5.1 引例 一、分类的定义 把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 例如:(1)正常信用卡与欺诈信用卡的分类 (2) 正常细胞与癌变细胞的分类 (3)正常邮件与垃圾邮件的分类 5.1 引例 5.1 引例 二、分类问题使用的数据集(续) 5.1 引例 二、分类问题使用的数据集(续) 分类问题中使用的数据集X={(xi,yi)|i=1,2,…,total} xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值 yi表示数据样本xi的类标号,假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性C的具体取值 未知类标号的数据样本x用d维特征向量x=(x1,x2,…,xd)来表示 5.2 分类问题概述 一、 分类的过程 二、 分类的评价准则 一、 分类的过程 一、分类的过程(续) 获取数据 输入数据、对数据进行量化 预处理 ※ 去除噪声数据、对空缺值进行处理 ※ 数据集成或者变换 分类器设计 划分数据集、分类器构造、分类器测试 分类决策 对未知

文档评论(0)

1亿VIP精品文档

相关文档