网站大量收购独家精品文档,联系QQ:2885784924

纠错输出编码(ECOC)综述和基本原理.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
纠错输出编码(ECOC)综述和基本原理

纠错输出编码(ECOC)综述和基本原理 目录 机器学习导论1 《Solving Multiclass Learning Problems via Error-Correcting Output Codes》2 A Subspace to ECOC 3 中文参考文献5 机器学习导论 在纠错输出编码中,主要的分类任务通过由基学习器实现的一组子任务来定 义。其思想是:将一个类从其他类区分开来的原始任务可能是一个困难的问题。 作为替代,我们定义一组简单的分类问题,每个专注于原始任务的一个方面,并 通过组合这些简单的分类器来得到最终的分类器。 这时,基分类器是输出为-1/+1 的二元分类器,并且有一个K*L 的编码矩阵 W,其K 行是关于L 个基学习器dj 类的二元编码。例如, M (2, ) [ 1  1  1  1] 表示若一个样本属于第2 类(C ) ,则该样本应在h 和h 上取负值,在h 和h 上 2 1 4 2 3 取正值;M ( , 3) [ 1  1  1]T 可理解为第三个基分类器 h3 的任务是将属于 C1 类的样本与属于 C2 和 C3 类的样本区分开。同时M ( , 3) 也决定了如何构造基分  类器h 的训练样本集T :所有标记为C 类及C 类的样本形成正样本 ,而标 3 3 2 3 3   记为 C 类的实例构成负样本 ,对 h 的训练应使得x T ,当x  时, 1 3 3 i 3 i 3 h (x ) 1 ;当x   时,h (x ) 1 。 3 i i 3 3 i 这样,编码矩阵使得我们可以用二分类问题定义多分类问题,并且这是一种 适用于任意可以实现二分基学习器的学习算法的方法,例如,线性或多层感知器, 决策树或初始定义的两类问题的SVM。 典型的每类一个判别式的情况对应于对角矩阵,其中L=K,例如,对于K=4 , 我们有 W= 【】 这里的问题是:如果某一个基学习器存在错误,就会有误分类,因为类的码 字之间非常相似,因而纠错码采用的方法是使LK 来增加码字之间的汉明距离。 一种可能的方法是类逐对分开,其中对ij 有一个不同的基学习器将ci 和cj 分开。 在这种情况下,当K=4 时,L=K(K-1)/2,编码矩阵为W=[] 。 其中的0 表示无关,这就是说,训练d1 来将C1 与C2 分开并且在训练中不使用属于其他类 的实例。类似地,一个实例属于 C2 如果有 d1=-1,并且 d4=d5=+1,并且我们不考虑 d2,d3,d6 的值。这种方法的问题是对于比较大的K,逐对分开是不可行的。 方法是预先设定 L 值,然后寻找w 使得以汉明距离衡量的行间距以及列间距离都尽可能的 大。对K 类问题而言,存在2k-1-1 中可能列,即两类问题。这是因为K 位可以写成2K 种不同 的形式和补(比如,“0101 ”和“1010”,从我们的角度来看,二者定义相同的判别式),将 所有可能组合除以2 减1,因为全为0 (或1)的列是无用的。例如K=4 时,我们有 1 1 1 1 1 1     1 1 1 1

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档