中国农业大学数学专业多标签分类问题的解法综述.docxVIP

  • 28
  • 0
  • 约9.4千字
  • 约 6页
  • 2021-12-13 发布于天津
  • 举报

中国农业大学数学专业多标签分类问题的解法综述.docx

多标签分类问题的解法综述 前言 分类问题 分类问题是模式识别的核心研究内容, 其目的是通过对己知标签数据集的学习 设计一个分类器,然后用该分类器来预测新样本的标签。 按照样本所属标签个数, 分类问题可以分为单标签分类问题和多标签分类问题。 在多标签分类问题中, 标 签与标签之间存在着一定的依赖或关联关系, 而且问题中的样本可以同时属于多 个标签,因此多标签分类问题是最为复杂的分类问题之一。 分类问题的应用 目前,现实世界中存在着大量的多标签分类问题, 多标签分类算法有非常广泛 的应用前景,比如 a)文本分类[1][2][3] a) 文本分类 [1][2][3] 随着大量文字信息开始以计算机可读形式存在,其数量也急剧增加,用机 器学习工具快速、自动地将文本分类已成为当今一个重要的研究课题。文 本分类是指给定分类体系,将文本分到某个或者某几个类别中。比如:对 于一篇新闻报道,从不同角度分析,可以将其划分到不同的话题中,也就 是说一篇新闻报道可以看作是经济类、政治类和体育类等。 b)场景分类[4][5] b) 场景分类 [4][5] 场景图像普遍存在,人们很容易识别场景图像属于哪个主题。大多数的场 景图像都属于一个主题,但也有部分场景图像不只属于一个主题,可以同 时拥有多个主题,比如海滩、山峰、树林和湖泊等。 c) 蛋白质功能分析 [6][7] 蛋白质功能分析是生物信息学领域研究的一项重要任务,近年来,使用机 器学习工具来预测蛋白质功能的问题引起了更多人的关注。众所周知,蛋 白质允许同时拥有多个功能, 它属于多标签分类问题, 且从生物学角度看, 功能类之间是相互关联的,因此使用机器学习工具预测未知蛋白质的功能 是很有应用价值的。我们可以通过计算机的多标签分类算法预先估计基因 所拥有的功能,然后再进行生物实验,这样可以大大降低其成本,从而快 捷有效的解决问题。 除此之外, 在诸如电影分类、 音乐分类等领域, 多标签问题出现的频率也非常 高,引起了人们的研究兴趣,因此对多标签分类方法需求在持续增长。 主题:多标签分类问题的解法综述 单标签两类问题和单标签多类问题可以看作多标签分类问题的特例 [8] ,其中的 每个样本只属于一个标签, 所以多标签分类算法也可以解决单标签分类问题。 目 前,根据已形成多种解决多标签分类问题的方法, 根据总体设计思路不同, 将其 分为两种: 一种是基于单个优化问题的多标签分类算法, 一种是基于数据分解的 多标签分类算法。 2.1 基于单个优化问题的多标签分类算法 基于单个优化问题的多标签分类算法的基本思想 [8] 是:只建立一个最优化问题 直接处理数据集中的所有样本。 多标签数据集中的样本拥有多个标签, 怎样建立 和求解这样的最优化问题是要解决的重要问题。 算法的实现虽有一定的难度, 但 其优点是它没有改变数据集的结构,没有破坏类别之间的关联关系,反映了多标 签分类的特殊性质。因此,建立一个具体的最优化问题直接解决多标签分类问题 会有更好的性能。根据建立最优化问题的不同方法,基于单个优化问题的多标签 算法也可以分成多种不同的形式。 2.1.1基于Adaboost算法的多标签分类算法 Adaboost算法[10]的研究及应用大多集中于分类问题,现在也有些应用于回归 问题。该算法是用全部的训练样本进行学习。其基本思想是针对同一个训练集训 练不同的分类器,然后将这些弱分类器组合,最终构成一个更强的分类器。 BoosTexter算法⑹,它就是基于AdaBoost算法的处理多标签文本分类的方法, 其中形成两种算法,即 AdaBoost. MH算法和AdaBoost. MR算法。AdaBoost. MH 算法的基本原理是首先为由 m个样本和k个标签所组成的训练数据集分别建立 m*k个权值(初始权值相同),在每次循环中,对于容易分类的样本减小其权值, 而对于难于分类的样本增加其权值, 经过多次循环后,最终用这些权值预测未知 数据集中新样本的所属标签。AdaBoost. MR算法是为每个样本的相关标签排序, 所排顺序取决于样本属于该标签的概率大小。 2.1.2决策树方法扩展为多标签分类算法 De Comite 等于2003年提出了一种对可变决策树学习算法 [11](Altemating Decision Trees,简称ADTrees)扩展的处理多标签问题的方法即 ADTBoost MH 算法[12],是一种基于单个优化问题的多标签分类算法。 该算法通过扩展Schapire 和Singer提出的AdaBoost. MH引,产生一系列类似于交替决策树学习算法的 规则,是AdaBoost. MH和ADTrees相结合的多标签分类算法,该算法具有处理 异种输入数据的能力。C4.5算法可以通过修改来处理基因功能分类,也属于基 于单

文档评论(0)

1亿VIP精品文档

相关文档