纠错输出编码(ECOC)综述和基本原理.pdf

下载文档 降价啦

661
0
约6.77千字
约 16页
2017-10-08 发布于湖北
举报
版权申诉
保障服务

纠错输出编码(ECOC)综述和基本原理.pdf

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

纠错输出编码(ECOC)综述和基本原理

纠错输出编码（ECOC）综述和基本原理目录机器学习导论1 《Solving Multiclass Learning Problems via Error-Correcting Output Codes》2 A Subspace to ECOC 3 中文参考文献5 机器学习导论在纠错输出编码中，主要的分类任务通过由基学习器实现的一组子任务来定义。其思想是：将一个类从其他类区分开来的原始任务可能是一个困难的问题。作为替代，我们定义一组简单的分类问题，每个专注于原始任务的一个方面，并通过组合这些简单的分类器来得到最终的分类器。这时，基分类器是输出为-1/+1 的二元分类器，并且有一个K*L 的编码矩阵 W，其K 行是关于L 个基学习器dj 类的二元编码。例如， M (2, ) [ 1  1  1  1] 表示若一个样本属于第2 类(C ) ，则该样本应在h 和h 上取负值，在h 和h 上 2 1 4 2 3 取正值；M ( , 3) [ 1  1  1]T 可理解为第三个基分类器 h3 的任务是将属于 C1 类的样本与属于 C2 和 C3 类的样本区分开。同时M ( , 3) 也决定了如何构造基分  类器h 的训练样本集T ：所有标记为C 类及C 类的样本形成正样本，而标 3 3 2 3 3   记为 C 类的实例构成负样本，对 h 的训练应使得x T ，当x  时， 1 3 3 i 3 i 3 h (x ) 1 ；当x   时，h (x ) 1 。 3 i i 3 3 i 这样，编码矩阵使得我们可以用二分类问题定义多分类问题，并且这是一种适用于任意可以实现二分基学习器的学习算法的方法，例如，线性或多层感知器，决策树或初始定义的两类问题的SVM。典型的每类一个判别式的情况对应于对角矩阵，其中L=K，例如，对于K=4 ，我们有 W= 【】这里的问题是：如果某一个基学习器存在错误，就会有误分类，因为类的码字之间非常相似，因而纠错码采用的方法是使LK 来增加码字之间的汉明距离。一种可能的方法是类逐对分开，其中对ij 有一个不同的基学习器将ci 和cj 分开。在这种情况下，当K=4 时，L=K(K-1)/2，编码矩阵为W=[] 。其中的0 表示无关，这就是说，训练d1 来将C1 与C2 分开并且在训练中不使用属于其他类的实例。类似地，一个实例属于 C2 如果有 d1=-1,并且 d4=d5=+1,并且我们不考虑 d2,d3,d6 的值。这种方法的问题是对于比较大的K，逐对分开是不可行的。方法是预先设定 L 值，然后寻找w 使得以汉明距离衡量的行间距以及列间距离都尽可能的大。对K 类问题而言，存在2k-1-1 中可能列，即两类问题。这是因为K 位可以写成2K 种不同的形式和补（比如，“0101 ”和“1010”，从我们的角度来看，二者定义相同的判别式），将所有可能组合除以2 减1，因为全为0 （或1）的列是无用的。例如K=4 时，我们有 1 1 1 1 1 1     1 1 1 1