商务智能与数据挖掘-第4章-分类分析.pptx

分类分析商务智能与数据挖掘——第4章分类分析

问题提出?分类任务就是确定对象属于哪个预定义的目标类。分类问题是一个普遍存在的问题,有许多不同的应用。例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分类,如图4-1所示。

(a)螺旋状星系M81(b)椭圆星系M60和旋涡星系NGC4647图4-1星系的分类。图片来源于NASA网站

4.1预备知识4.2解决分类问题的一般方法4.3分类算法4.4评估分类器的性能4.5小结本章内容

4.1预备知识4.2解决分类问题的一般方法4.3分类算法4.4评估分类器的性能4.5小结本章内容

4.1预备知识分类任务的输入数据是记录的集合。每条记录也称实例或样例,用元组(x,y)表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号(也称为分类属性或目标属性)。

4.1预备知识表4-1列出一个样本数据集,用来将脊椎动物分为以下几类:哺乳类、鸟类、鱼类、爬行类和两栖类。属性集指明脊椎动物的性质,如体温、表皮覆盖、繁殖后代的方式、飞行的能力和在水中生存的能力等。

表4-1脊椎动物的数据集名字体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号人类恒温毛发是否否是否哺乳类蟒蛇冷血鳞片否否否否是爬行类鲑鱼冷血鳞片否是否否否鱼类鲸恒温毛发是是否否否哺乳类青蛙冷血无否半否是是两栖类巨蜥冷血鳞片否否否是否爬行类蝙蝠恒温毛发是否是是是哺乳类鸽子恒温羽毛否否是是否鸟类猫恒温软毛是否否是否哺乳类豹纹鲨冷血鳞片是是否否否鱼类海龟冷血鳞片否半否是否爬行类企鹅恒温羽毛否半否是否鸟类豪猪恒温刚毛是否否是是哺乳类鳗冷血鳞片否是否否否鱼类蝾螈冷血无否半否是是两栖类

4.1预备知识尽管表4-1中的属性主要是离散的,但是属性集也可以包含连续特征。另一方面,类标号却必须是离散属性,这正是区别分类与回归(regression)的关键特征。回归是一种预测建模任务,其中目标属性y是连续的。

4.1预备知识定义4.1分类(classification)分类任务就是通过学习得到一个目标函数(targetfunction)f,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型(classificationmodel)。分类模型可以用于以下目的。

4.1预备知识描述性建模分类模型可以作为解释性的工具,用于区分不同类中的对象。例如,对于生物学家或者其他人,一个描述性模型有助于概括表4-1中的数据,并说明哪些特征决定一种脊椎动物是哺乳类、爬行类、鸟类、鱼类或者两栖类。

4.1预备知识预测性建模分类模型还可以用于预测未知记录的类标号。如图4-2所示,分类模型可以看作是一个黑箱,当给定未知记录的属性集上的值时,它自动地赋予未知样本类标号。例如,假设有一种叫作毒晰(gilamonster)的生物,其特征如下:名字体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号毒蜥冷血鳞片否否否是是?

4.1预备知识可以使用根据表4-1中的数据集建立的分类模型来确定该生物所属的类。图4-2分类器的任务是根据输入属性集x确定类标号y

4.1预备知识分类技术非常适合预测或描述二元或标称类型的数据集,对于序数分类(例如,把人分类为高收入、中等收入或低收入组),分类技术不太有效,因为分类技术不考虑隐含在目标类中的序关系。其他形式的联系,如子类与超类的关系(例如,人类和猿都是灵长类动物,而灵长类是哺乳类的子类)也被忽略。本章余下的部分只考虑二元的或标称类型的类标号。

4.1预备知识4.2解决分类问题的一般方法4.3分类算法4.4评估分类器的性能4.5小结本章内容

4.2解决分类问题的一般方法分类技术(或分类法)是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。这些技术都使用一种学习算法(learningalgorithm)确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。

4.2解决分类问题的一般方法图4-3展示解决分类问题的一般方法。首先,需要一个训练集(trainingset),它由类标号已知的记录组成。使用训练集

文档评论(0)

1亿VIP精品文档

相关文档