- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章非度量方法
非度量方法 刘芳,戚玉涛 qi_yutao@163.com 引言 前面几章介绍了基于连续实数或离散值的特征向量的模式识别问题。 这类模式识别问题都涉及了向量间距离度量的概念。 例如:最近邻分类器中直接使用距离的概念; 又如:神经网络分类器中隐含了距离的信息,如果两个输入向量足够相似(接近),那么它们的输出也将很相似。 引言 然而,现实中的模式识别问题中,样本的属性并不一定是可度量的、有偏序关系的量,还可以是非度量的语义属性,该属性没有相似性的概念,没有次序的关系。 非度量语义属性表示的模式常用“属性d元组”给有限的属性赋值。 另外一种表示此类模式常用的方法是用不等长语义属性的列表(字符串)。 引言 属性d元组表示样本: 水果的属性描述:(颜色, 尺寸, 形状, 味道) 判定规则: 西瓜 = 绿色∧大 苹果 = (绿色∧中等大小)∨(红色∧中等大小) 字符串表示样本: 一个DNA片段的碱基对,“AGCTTCAGATCA” 这种列表(串)本身也可能是某种子分类器的输出结果。例如,可以训练一个神经网络,使之能识别汉字的基本笔画,然后将这些基本笔画的语义属性组成的列表作为输入,送入另外的分类器识别出汉字。 引言 度量方法: 特征以连续或离散数值的方式描述; 样本可以看作是度量空间(距离空间)中的点; 样本之间的距离可以作为相似性的度量; 采用统计学的方法构造识别器。 非度量方法: 特征(属性)可以是数值,也可以是符号; 很难定义距离来衡量属性之间的相似程度; 非度量方法 常用的非度量方法 判定树 串匹配 文法方法(结构模式识别) … 判定树 水果的属性描述:(颜色, 尺寸, 形状, 味道) 判定树(Decision Tree):或决策树,或多级分类器,是模式识别中进行分类的一种有效方法,对于多类或多峰分布问题,这种方法尤为简便。利用树分类器可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决。 利用一系列的查询问答来判断和分类某模式是一种很自然和直观的做法。后一个问题的提法依赖于前一个问题的回答。 这种问答方式对非度量数据特别有效,因为回答问题时的“是/否”、“真/假”、“属性值”等并不涉及任何距离测度的概念。 判定树的特点: 中间节点对应一个属性,节点下的分支为该属性的可能值; 叶节点都有一个类别标记,每个叶节点对应一个判别规则; 判定树可以产生合取式规则(如:香蕉= {黄色AND细长} ),也可以产生析取式规则(如:苹果 = {绿色 AND 中等大小} OR { 红色 AND 中等大小 }); 判定树产生的规则是完备的,对于任何可分的问题,均可构造相应的判定树对其进行分类。 树分类器的优点是分类速度快,可以很自然的嵌入专家的先验知识。 通用的判定树生成算法 如何根据训练样本生成一棵判定树? 判定树将训练样本逐步划分成越来越小的子集 理想的情况是每个子集中的所有样本均有同类别标记。若该条件满足,则称该子集为“纯”的子集,树的分支操作结束 通常子集中的类别标记仍有混杂,这时必须选择要么停止分支并接受不完美的判决,要么选择另外一个属性进一步生长判定树 分类和回归树(Classification and Regression Tree,CART)是仅有的一种通用的树生长算法。 生成判定树的例子: 构造的判定树 通用的判定树生成算法 构造判定树的基本过程:从上到下,分而治之(divide-and-conquer),递归生长 最初,所有的样本都在根节点 所有属性都是非度量的(如果是连续数值型的,则需要预先离散化) 所有样本根据每次选择出的属性递归的逐渐划分开来选择出来的属性称为一个划分(split)或测试(test)或查询 (query) 查询的选择基于启发式或者统计特征 通用的判定树生成算法 构造判定树的基本过程: 满足如下条件之一时,划分操作停止 所有落入某一节点的样本均属于同一类别:该节点成为叶节点,标记为该类别 没有特征能够进一步用于划分样本集:该节点成为叶节点,类别标签为落入该节点的多数样本所属的类别 没有任何样本落入某一节点:该节点成为叶节点,类别标签为落入父节点的多数样本所属的类别 通用的判定树生成算法 分类和回归树(CART)提供一种通用的决策树生成框架,须解决一下6个问题: 节点处的分支数应该是几? 如何确定某节点处应该测试哪个属性? 何时可以令某节点成为叶节点,分支操作何时停止? 如何使一个过大的树变小,如何“剪枝”? 如果叶节点仍不“纯”,如何给它赋类别标记? 缺损的数据如何处理? 通用的判定树生成算法 CART 需解决的6个问题: 节点分支数的确定 查询的选取 分支停止准则 剪枝 叶节点的标记 属性丢失 节点分支数的确定 分支数是由上述6个问题中的第2个(某节点处应该测试哪个属性)决定
文档评论(0)