第九章非度量方法-Read.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章非度量方法-Read.ppt

第九章 非度量方法 8.1 度量方法与非度量方法 度量方法: 特征以连续或离散数值的方式描述; 样本可以看作是度量空间(距离空间)中的点; 样本之间的距离可以作为相似性的度量; 采用统计学的方法构造识别器。 非度量方法 特征(属性)可以是数值,也可以是符号; 很难定义距离来衡量属性之间的相似程度; 常用的非度量方法 判定树 串匹配 文法方法(结构模式识别) … 9.2 判定树的概念 水果的属性描述:(颜色, 尺寸, 形状, 味道) 判定规则: 西瓜 = 绿色∧大 苹果 = (绿色∧中等大小)∨(红色∧中等大小) 判定树的特点 中间节点对应一个属性,节点下的分支为该属性的可能值; 叶节点都有一个类别标记,每个叶结点对应一个判别规则; 判定树可以产生合取式规则,也可以产生析取式规则; 判定树产生的规则是完备的,对于任何可分的问题,均可构造相应的判定树对其进行分类。 9.3 通用的判定树生成算法 CART:Classification and Regression Tree 已知示例集合(样本集合),生成判别树,能够对示例中的样本分类,也要能够对未来的样本进行分类。 例9.1 构造的判定树 学习判定树须解决的问题 节点处的分支数应该是几? 如何确定某节点处应该测试哪个属性? 何时可以令某节点成为叶节点? 如何使一个过大的树变小,如何“剪枝”? 如果叶节点仍不“纯”,如何给它赋类别标记? 缺损的数据如何处理? 节点分支数的确定 采用2分支和多分支均可。(1) 叶节点的标定和属性丢失 如果叶节点仍不“纯”,即包含多个类别的样本时,可以将此叶节点标记为占优势的样本类别;(5) 如果待识别的样本某些属性丢失,当在某节点需要检测此属性时,可在每个分支上均向下判别。(6) 9.4 ID3算法 ID3算法是由Quinlan于1986年提出的; CART中提出的(2)(3)(4)三个问题都可以归结为如何构造一个“好的”判别树的问题; 奥坎姆剃刀原理(Occam’s Razor):能够达到同样目的的模型,最简单的往往是最好的; 简单的模型往往对应着较强的推广能力。 ID3算法 ID3( Examples, Attributes ) Examples:样本集合,Attributes:样本属性集合 创建根节点Root; 如果Examples中的元素类别相同,则为单节点树,标记为该类别标号,返回Root; 如果Attributes为空,则为单节点树,标记为Examples中最普遍的类别标号,返回Root; A?Attributes中分类能力最强的属性; Root的决策属性?A; 将Examples中的元素根据A的属性分成若干子集,令Examplei为属性为i的子集; 若Examplei为空,则在新分支下加入一个叶节点,属性标记为Examples中最普遍的类别; 否则在这个分支下加入一个子节点ID3(Examplei, Attributes-{A} ); 用信息增益定义属性的分类能力 节点N的熵不纯度: 其中 为节点N处属于 类样本数占总样本数的频度; 节点N处属性A的信息增益: 其中, 为属性A的所有可能值的集合, 为N中属性值为v的子集, 为集合N中元素的个数。 信息增益的计算 测试属性的选择 在节点N处以信息增益最大的原则选择测试属性;(2) ID3算法是最优判定树构造的“贪心算法”。 9.5 C4.5算法 ID3算法没有“停止”和“剪枝”技术,当生成的判别树的规模比较大时,非常容易造成对数据的过度拟合; 1993年Quinlan在ID3算法的基础之上增加了“停止”和“剪枝”技术,提出了C4.5算法,避免对数据的过度拟合。 分支停止 验证技术:用部分训练样本作为验证集,持续节点分支,直到对于验证集的分类误差最小为止; 信息增益阈值:设定阈值β,当信息增益小于阈值时停止分支, ; 最小化全局目标: ,size用于衡量判别树的复杂程度; 剪枝 判别树首先充分生长,直到叶节点都有最小的不纯度为止,然后对所有具有公共父节点的叶节点,考虑是否可以合并。 如果合并叶节点只引起很小的不纯度增加,则进行合并; 规则修剪:先将判别树转化为相应的判别规则,然后在规则集合上进行修剪。 9.6 连续值属性 连续值属性判别树 * * No Strong High Mild Rain 14 Yes Weak Normal Hot Overcast 13 Yes Strong High Mild Overcast 12 Yes Strong Normal Mild Sunny 11 Yes Weak Normal Mild

文档评论(0)

2752433145 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档