[工学]模式识别课件.ppt

下载文档 降价啦

1
0
约1.45万字
约 121页
2018-03-07 发布于浙江
举报
版权申诉
保障服务

[工学]模式识别课件.ppt

1、本文档共121页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]模式识别课件

* 说明第四章模式识别 * 两种剪枝标准最小描述长度原则(MDL) 思想：最简单的解释最期望的做法：对决策树进行二进位编码，编码所需二进位最少的树即为“最佳剪枝树” 期望错误率最小原则思想：选择期望错误率最小的子树剪枝对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率，比较后加以取舍第四章模式识别 * MDL剪枝 MDL原理：对数据进行编码的最佳模型是使得用该模型描述数据和描述这个模型的代价的和最小的模型编码代价模型： Cost ( M, D)= Cost ( D|M ) + Cost ( M ) 其中： Cost ( M, D)：编码的总代价； Cost (M) ：编码模型M的代价; Cost (D|M) ：用模型M编码数据D的代价; 模型指剪枝初始决策树时得到的一系列子树; 数据是训练集。 MDL剪枝是寻找能最好描述训练集的子树。第四章模式识别 * MDL剪枝编码代价规则数据编码：代价定义为错误的分类个数。模型编码：包括编码树本身和编码内节点上的判断标准。树编码有三种方案： Code 1 节点或者有两个子树或者没有子树。需要一比特； Code 2 节点可有两个子树、没有子树、只有左子树或右子树。需要两个比特； Code 3 仅仅编码内节点，此时节点可能有两个子树、左或右子树。需要Log2 3个比特。分裂属性编码：数值属性：只需要编码值V，代价为常数 1；分类属性：对每个分类属性Ai 计算在树中用到其分裂的次数，代价为。第四章模式识别 * MDL剪枝（续）剪枝算法 MDL剪枝算法在决策树每个内节点上评估编码的长度，从而决定是否将该节点转换为叶结点，或者删除其左（右）子树，还是保持结点不变。为了进行选择，编码长度C(n) 用下式计算： ( 1 ) Cleaf ( t ) = L( t ) + Errorst 如果t 是树叶 ( 2 ) Cboth( t ) = L( t ) + Ltest + C ( t1 ) + C ( t2 ) t 有t1 和t2 两个孩子 ( 3 ) Cleft ( t ) = L( t ) + Ltest + C ( t1 ) + C ’( t2 ) t 有t1 一个孩子 ( 4 ) Cright ( t ) = L( t ) + Ltest + C ’( t1 ) + C ( t2 ) t 有t2 一个孩子 Ltest 在内部节点上的任意测试的编码代价第四章模式识别 * MDL剪枝（续）剪枝算法（续）我们有三种剪枝策略：完全剪枝：如果 Cleaf ( t ) Cboth( t ) ，则删去左右结点，使得成为叶结点。此时编码采用 Code 1 ；部分剪枝：计算上述四种结果，选择具有最短编码长度的方案。此时编码采用 Code 2 ；混合剪枝：将剪枝分成两个步骤：首先使用完全剪枝选择出较小的树，然后仅仅考虑（2）、（3）和（4）作进一步的剪枝。算法过程描述：剪枝算法是一种自低向上的剪枝算法，选定一种剪枝策略，由下而上的根据所得到新树的总代价是否变小来决定是否进行剪枝，直到根节点为止。第四章模式识别 * 支持向量机 (SVM) （Support Vector Machine）第四章模式识别 * 利用有限数量的观测来寻求待求的依赖关系机器学习问题的提法模式识别（分类）回归分析（回归）概率密度估计第四章模式识别 * 训练样本集： (x1,y1), (x2,y2) ,……,(xl,yl) 其中xi为N维向量， yi?{-1,1} 或 {1,2, ……,k} (聚类) yi?R ( 回归) 预报样本集： xl+1 , xl+2 , …… , xm；求yi 第四章模式识别 * G: 产生器,随机产生向量x∈Rn ,F(x)未知 S: 训练器,对每一x∈Rn返回一输出值 y LM: 学习机器,可供选取的函数集f (x,?) 基于训练,从给定的函数集f (x,?), ?∈? 中选出最好逼近训练器响应的函数来 G x S y LM y