- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 非度量方法 - 中山大学
Chapter 8 Non-metric Methods – 非度量方法 * * * 在本章,我们从实向量形式表示的模式,转向以非度量的语义属性来表示的模式。 一种常用的方法是使用所谓的“属性d-元组”给有限的属性赋值,例如:用四种属性描述一种水果的情况:颜色、纹理、味道和尺寸。另一种表示此类模式的常用方法是用不等长语义属性的字符串,例如,一个DNA片段的碱基对,如“AGCTTCAGATTCCA” 本章所需解决的问题: 如何更好地运用语义数据来进行分类 如何有效地从这些非度量的数据中学习和发现类别信息 如果串本身存在结构,该如何恰当的表达该结构 8.2 判定树 分类过程: 从根节点开始,首先对模式的某一属性取值提问,与根节点相连的不同链或分支,对应这个属性的不同取值 在已经到达的节点处做同样的分支判断,即把它作为一颗子树的根节点,继续这个过程直到到达叶节点 树分类方法相比其他分类器的优点: 可表示性 由上图可以知道若模式x={甜、黄、细长、中等},就可以识别为香蕉。 分类的速度快,因为只需要一系列的查询。 8.3 CART(回归树) CART提供一种通用的树生长框架,它可以实例化为各种各样不同的判定树,在设置CART时有以下问题需要回答: 属性的值应当是完全二值的还是多值的?也就是说节点处分支数是多少? 如何确定某节点处应该测试哪个节点? 何时可以令某节点成为叶节点? 如果树生长得“过大”,怎样使其变小变简单,即如何“剪枝”? 如果叶节点仍不纯,那么怎样给它赋类别标记? 缺损的数据如何处理? 8.3.1 分支数目 节点处的一次判别称为一个分支,节点的分支数目是由树的设计者确定的,并且在一棵树上叶可能有不同 的值。 从一个节点中分出去的树支链的数目称为节点的分支系数或分支率。用B表示,并且对于每一个判别都可以用二值判别表示。 8.3.2 查询的选取与节点不纯度 构造树的过程的一个基本原则是“简单”:我们期望获得的判定树简单、紧凑,只有很少的节点。因此我们需要寻找一个查询T,它能使后继节点数据尽可能的“纯”,为了形式化表达上述想法,我们定义一个“不纯度”的指标。用 表示节点N的“不纯度”,当节点上的模式数据均来自同一类别时,我们要求 ;当类别标记均匀分布时, 应当很大。 几种不纯度测量方法: 熵不纯度(信息量不纯度): 这里 时节点 N处属于 类模式样本数占总样本数的频度。 方差(多项式)不纯度 对于两类分类问题有: 推广的多类分类问题的不纯度测量也称为“Gini不纯度”: 误分类不纯度: 8.3.3 分支停止准则 分支停止准则: 验证和交叉验证技术。它是指首先用部分的训练样本来训练树,然后用剩下的样本做验证,直到对于验证集的分类误差最小化为止。 预先设定一个不纯度下降差的门限值,当候选分支使得节点的不纯度的下降差小于这个门限时,则停止分支。该方法的优点是全部样本都参加训练,另外树的各层上都可能存在叶节点,对输入数据中存在不同复杂度的情况非常关键;其缺点是门限值的预先设定相当困难。 基于不纯度下降的统计显著性分析。在构造树的过程中,估计目前全部已有节点的不纯度降差的概率分布,我们就假设它是不纯度降差的总体分布,对某一候选的节点分支而言,我们检验它与上述分布是否存在统计差异。如果某个候选分支的不纯度下降统计不显著,则停止分支。该技术的一种变形,即“假设检验”技术也能被采用。 8.3.4 剪枝 剪枝过程: 首先对树进行充分生长,直到叶节点都有最小的不纯度值为止,因而没有任何推定的“视界局限”,然后,对所有相邻的成对叶节点,考虑它们是否应该消去,如果消去它们能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。 剪枝优点: 首先克服了“视界局限”效应,而且因为无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。 剪枝缺点: 对于大样本来说,计算量代价比较高,比分支停止方法要高很多,但对于小样本来说,剪枝方法优于分支停止方法。 8.3.5 叶节点的标记 若节点持续的尽可能被分支,那么每个叶节点都只包括单一的样本,那么该类别的标记就是叶节点的标记。多数情况下,无论是否曾用过分支停止或剪枝技术,叶节点一般有正的不纯度,这样就应该用其中占优势的样本类别来标记。 例1 一颗简单的判定树 8.3.6 计算复杂度 给定n个d维训练样本,构造一棵二叉树,当采用熵不纯度时的训
您可能关注的文档
- 第6课_近代前夜的发展与迟滞必修二.ppt
- 第6讲-建筑场地布局-2.ppt
- 第6课岳麓版必修二.ppt
- 第6课时病句(不合逻辑).ppt
- 第6课时 一次函数复习课.ppt
- 第6课时:数的产生及十进制计数法.ppt
- 第6课_眼镜的设计.ppt
- 第7-8讲 有源功率放大器层次电路图设计及实训.ppt
- 第7次课_运算器.pptx
- 第6课 电磁感应规律的应用.ppt
- 学生自主学习能力在项目式化学教学中的培养路径.docx
- 2025山东菏泽西安路小学幼儿园招聘考试笔试试卷【附答案】.docx
- 煤炭储运中心建设项目可行性研究报告(模板).docx
- 学生自主学习与高职教育管理的互动.docx
- 焊工技能考试《焊工技能考试考试答案》考试题_1.doc
- 2025年湖北宜昌市教育系统事业单位人才引进校园招聘73人笔试模拟试题及参考答案详解1套.docx
- 广东省广州中科2026届高三数学第一学期期末学业质量监测模拟试题含解析.doc
- 学校与社会联合推动劳动教育助力大学生全面成长.docx
- 2025山东日照高新区教育系统招聘教师考试笔试试卷【附答案】.docx
- 焊工技能考试《焊工技能考试考试答案》模拟卷.doc
文档评论(0)