模式识别技术7_非度量方法.pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别技术7_非度量方法

第7 章 非度量方法 7 .1 引言 在前面的章节中,我们研究了特征为实数的模式识别问题。但是在实际中,我们往 往会遇见特征不是实数的情形。例如,考虑用下面四种属性来描述一种水果:颜色、纹 理、味道和大小。这样,一种水果可以使用一个d 元组(d -tuple ))表达,如:(红色, 有光泽,甜,小),即该水果的“颜色是红的”,“纹理是有光泽的”,“味道是甜的”,“尺 寸是小的”。 在以实数为特征的问题中,往往需要计算距离度量,并且距离度量也是比较容易得 到的。例如,在最近邻分类器中,两个样本之间的距离就可以定义为两个向量之间的距 离。一个待测试样本的标签就是距离最近的训练样本的标签。然而在上面的水果的例子 中,没有一个自然的方法来定义水果的颜色的相似性,味道的相似性。因而也就没有一 个自然的方法定义水果的相似性。我们有时候把这样的数据叫做名义数据(nominal data ),或非实数数据。把这样的特征叫做名义特征,或名义变量,或非实数变量,或非 度量(nonmetric )属性。非实数特征取值是离散的,没有自然的相似性的概念,甚至没 有次序关系。如水果的颜色就是这样的一个特征。 在本章中,我们的要考虑的是,当我们遇见的问题存在非实数特征时,如何有效地 从非实数数据中学习和发现类别信息?如何用这样的数据设计分类器? 7 .2 决策树 可以用决策树(decision tree )对非实数数据分类。决策树对应一个树结构,树的根 节点在最上面,叶子节点在最下面。就像“数据结构”这样的课程中使用的树结构一样。 (如图 7 -1 所示)。我们先来看如何用决策树分类。分类过程的第一步要从根节点开 始,首先对待测样本的某一特征的取值提问。与根节点相连的不同分支对应其不同取值, 因而不同的回答对应于不同的分支,而到达不同的后续子节点。第二步,在已经到达的 节点处作同样的分支判断,即把它作为一棵子树的根节点。继续这一过程,直到到达叶 节点。每一个叶节点上都有一个类别标号,测试样本就被标记为它所到达的叶节点的类 别。 和其他的分类器方法相比,决策树方法非常易于解释和理解。这是一个很重要的优 点。实际上,我们可以很容易从图7 -1 上“读”出一个数据为什么被分做“苹果”而 不是“香蕉”。不仅如此,我们还可以直接用逻辑表达式表示出树对应的分类规则。可 以知道,从根节点到任何一个叶子节点的路径可以用一个“合取式”(conjunction )表 达1 。如图 7 -1 中最左边的路径可以表示为(绿色 and 大)→西瓜。这是一条分类规 则。这样,一棵决策树就对应于一组规则。有时候也把决策树的构建过程看作是一组规 则的学习过程。 另外,由于不同的叶子节点可能对应于同一类别,因此,要准确描述一个类别,需 要利用合取式和析取式构造一个逻辑表达式。如,苹果= (绿色 and 中等大小)or (红 色and 中等大小)。 树分类器的另一个优点是分类速度快,因为对于一个待测试样本只需一系列简单的 询问就可以得到结果。还有,我们可以很自然的把专家的先验知识嵌入到树分类器中。 特别是在实际应用中,当问题比较简单并且训练样本很少时,这类专家知识对分类非常 有效。 1 概念“合取式”可以在人工智能方面的教材中找到。 1 图 7 -1 决策树的一次基本的自上而下的分类操作。每个节点处的问题是关于样 本的一个属性的,而向下的分支对应可能的回答。连续访问节点,直到到达某个叶子节 点,就可以从叶节点处得到类别标号。请注意,问题“大小?”出现在多个节点处,并 且节点的分支数目存在不同,许多叶节点具有同样的类别标号(例如“苹果”) 7 .3 CART 要使用树分类器,首先遇到的一个问题就是如何用一个有类别标号的训练样本集 D ,构造一棵决策树。我们也把这个过程叫做树的“生成”过程。可以知道,随着决 策树从树根到叶子节点,训练集被逐步划分成越来越小的子集。当一个子集中所有样本 的类别标号相同时,树的分支操作就不必继续进行了。这时,称该子集是“纯”’的子 集。该子集对应的节点就是叶子节点。而当一个子集中的类别标号仍有混杂时,我们要 么停止分支,这时叶子节点对应的样本集合是不“纯”的;要么另选一个

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档