- 28
- 0
- 约9.4千字
- 约 6页
- 2021-12-13 发布于天津
- 举报
多标签分类问题的解法综述
前言
分类问题
分类问题是模式识别的核心研究内容, 其目的是通过对己知标签数据集的学习 设计一个分类器,然后用该分类器来预测新样本的标签。 按照样本所属标签个数, 分类问题可以分为单标签分类问题和多标签分类问题。 在多标签分类问题中, 标 签与标签之间存在着一定的依赖或关联关系, 而且问题中的样本可以同时属于多 个标签,因此多标签分类问题是最为复杂的分类问题之一。
分类问题的应用
目前,现实世界中存在着大量的多标签分类问题, 多标签分类算法有非常广泛
的应用前景,比如
a)文本分类[1][2][3]
a)
文本分类
[1][2][3]
随着大量文字信息开始以计算机可读形式存在,其数量也急剧增加,用机
器学习工具快速、自动地将文本分类已成为当今一个重要的研究课题。文
本分类是指给定分类体系,将文本分到某个或者某几个类别中。比如:对
于一篇新闻报道,从不同角度分析,可以将其划分到不同的话题中,也就
是说一篇新闻报道可以看作是经济类、政治类和体育类等。
b)场景分类[4][5]
b)
场景分类
[4][5]
场景图像普遍存在,人们很容易识别场景图像属于哪个主题。大多数的场
景图像都属于一个主题,但也有部分场景图像不只属于一个主题,可以同
时拥有多个主题,比如海滩、山峰、树林和湖泊等。
c) 蛋白质功能分析 [6][7]
蛋白质功能分析是生物信息学领域研究的一项重要任务,近年来,使用机 器学习工具来预测蛋白质功能的问题引起了更多人的关注。众所周知,蛋
白质允许同时拥有多个功能, 它属于多标签分类问题, 且从生物学角度看,
功能类之间是相互关联的,因此使用机器学习工具预测未知蛋白质的功能 是很有应用价值的。我们可以通过计算机的多标签分类算法预先估计基因 所拥有的功能,然后再进行生物实验,这样可以大大降低其成本,从而快 捷有效的解决问题。
除此之外, 在诸如电影分类、 音乐分类等领域, 多标签问题出现的频率也非常 高,引起了人们的研究兴趣,因此对多标签分类方法需求在持续增长。
主题:多标签分类问题的解法综述
单标签两类问题和单标签多类问题可以看作多标签分类问题的特例 [8] ,其中的 每个样本只属于一个标签, 所以多标签分类算法也可以解决单标签分类问题。 目 前,根据已形成多种解决多标签分类问题的方法, 根据总体设计思路不同, 将其 分为两种: 一种是基于单个优化问题的多标签分类算法, 一种是基于数据分解的 多标签分类算法。
2.1 基于单个优化问题的多标签分类算法
基于单个优化问题的多标签分类算法的基本思想 [8] 是:只建立一个最优化问题 直接处理数据集中的所有样本。 多标签数据集中的样本拥有多个标签, 怎样建立 和求解这样的最优化问题是要解决的重要问题。 算法的实现虽有一定的难度, 但 其优点是它没有改变数据集的结构,没有破坏类别之间的关联关系,反映了多标 签分类的特殊性质。因此,建立一个具体的最优化问题直接解决多标签分类问题 会有更好的性能。根据建立最优化问题的不同方法,基于单个优化问题的多标签 算法也可以分成多种不同的形式。
2.1.1基于Adaboost算法的多标签分类算法
Adaboost算法[10]的研究及应用大多集中于分类问题,现在也有些应用于回归 问题。该算法是用全部的训练样本进行学习。其基本思想是针对同一个训练集训 练不同的分类器,然后将这些弱分类器组合,最终构成一个更强的分类器。 BoosTexter算法⑹,它就是基于AdaBoost算法的处理多标签文本分类的方法, 其中形成两种算法,即 AdaBoost. MH算法和AdaBoost. MR算法。AdaBoost. MH 算法的基本原理是首先为由 m个样本和k个标签所组成的训练数据集分别建立 m*k个权值(初始权值相同),在每次循环中,对于容易分类的样本减小其权值, 而对于难于分类的样本增加其权值, 经过多次循环后,最终用这些权值预测未知
数据集中新样本的所属标签。AdaBoost. MR算法是为每个样本的相关标签排序, 所排顺序取决于样本属于该标签的概率大小。
2.1.2决策树方法扩展为多标签分类算法
De Comite 等于2003年提出了一种对可变决策树学习算法 [11](Altemating
Decision Trees,简称ADTrees)扩展的处理多标签问题的方法即 ADTBoost MH 算法[12],是一种基于单个优化问题的多标签分类算法。 该算法通过扩展Schapire
和Singer提出的AdaBoost. MH引,产生一系列类似于交替决策树学习算法的 规则,是AdaBoost. MH和ADTrees相结合的多标签分类算法,该算法具有处理 异种输入数据的能力。C4.5算法可以通过修改来处理基因功能分类,也属于基 于单
您可能关注的文档
- 中国住房保障制度.docx
- 中国体育产业发展纲要.docx
- 中国体制创新经验的现实启示.docx
- 中国体育产业市场规模分析.docx
- 中国住房制度改革与变迁.docx
- 中国体育产业链市场深度分析报告.docx
- 中国体育产业相关政策整理.docx
- 中国体育活动新闻传播开发变化.docx
- 中国体育经济发展现状及对策.docx
- 中国体育用品市场分析图.docx
- 2025年新外研版三年级上册英语同步教学课件.pptx
- 红十字会大讲堂管理制度.docx
- 技术奇点(Singularity)理论的科学基础、哲学思辨与未来社会构想 _2026年1月.docx
- 公共艺术项目在激活城市消极空间(如高架桥下、废弃铁轨)中的作用 _2026年1月.docx
- “双减”政策对校外培训行业转型及家庭教育投入变化的影响 _2026年1月.docx
- Z世代员工对职场“摸鱼文化”的态度成因与管理对策研究 _2026年1月.docx
- 跨文化团队管理中的沟通障碍、文化冲突与融合策略案例分析 _2026年1月.docx
- 共享经济平台将劳动者归类为“合作伙伴”的伦理与法律责任 _2026年1月.docx
- 大型国际展会(如进博会、CES)的绿色会展实践与可持续发展评估 _2026年1月.docx
- 地理标识产品(如阳澄湖大闸蟹)与产地旅游的融合发展研究 _2026年1月.docx
原创力文档

文档评论(0)