基于跨领域主动学习图像分类方法.docVIP

下载本文档

2
0
约3.58千字
约 7页
2018-07-04 发布于福建
举报
版权申诉

基于跨领域主动学习图像分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于跨领域主动学习图像分类方法

基于跨领域主动学习图像分类方法　　摘要：针对基于单一领域主动学习的图像分类方法不能利用不同领域图像共同特征导致标记效率低下的问题，提出一种基于跨领域主动学习的图像分类方法。由不同领域图像学习出含共同隐特征的子空间，综合考虑共同特征和领域相关特征，将数据实例引起的模型损失减少量分解到一个共同部分和领域相关部分，从而领域间的共同信息可以编码到模型损失减少的共同部分并用来进行查询。实验结果显示该方法相对于单一模型学习和混合模型学习方法可以减少将近30%的标记工作，并且可以获得更高的精度，表明该方法可以更高效地运用于各种图像分类任务。　　关键词：跨领域；迁移学习；主动学习；图像分类；模式识别　　0 引言　　图像分类[1]是图像检索、模式识别中的一个重要应用，其方法通常是对大量的标记样本训练分类模型，然后将一幅图像按其所描述的场景或者包含的物体进行分类。由于图像数目巨大、种类繁多，且图像存在光照、角度、量级等各种变化，使得对图像的标记耗费大量的人力物力，这直接导致分类任务的困难。　　主动学习[2]是一种有效减少图像标记的学习方法，作为构造有效训练集的方法，其目标是通过迭代抽样，寻找有利于提升分类效果的样本，进而减少分类训练集的大小，在有限的时间和资源的前提下，提高分类算法的效率。主动学习已成为模式识别、机器学习和数据挖掘领域的研究热点问题[3]。陈荣等[4]提出了基于主动学习和半监督学习的多类图像分类方法，将基于最优标号和次优标号（Best vs Secondbest，BvSB）的主动学习和带约束条件的自学习（Constrained SelfTraining，CST）引入到基于支持向量机（Support Vector Machine，SVM）分类器[5]的图像分类算法中，提出了一种新的图像分类方法。通过BvSB主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注，并借助CST半监督学习进一步利用样本集中大量的未标注样本，使得在花费较小标注代价情况下，能够获得良好的分类性能。陈建杰等[6]提出了一种基于多分类SVM的主动学习方法，在少量标记类别的初始训练样本集基础上，通过反复迭代主动学习的方式，得到最有利SVM分类器性能的样本为支持向量，有效地减少了样本训练时需要标记样本的数目，并取得了较为理想的分类效果。　　然而，当前图像分类中的主动学习主要关注单一领域的分类模型。例如根据人脸图像进行表情分类时只关注人脸领域图像的表情特征，而没有关注动物脸图像的一些表情特征。尽管不同领域的图像有它们独特的特征空间，但它们可能会有共同的隐特征，比如都有高兴、悲伤的表情。如果分别对不同领域的图像进行主动学习，会有很多重复知识，从而造成大量的重复标记。反过来，我们可以考虑用这些共同特征对另一未知领域的图像进行标记，从而降低图像标记的工作量，提高分类效率。　　本文提出一种基于跨领域[7]主动学习的图像分类方法，它的主要思想是：为多领域图像分类任务建立基于全局优化的主动学习模型，所提出的样本选择准则用来抽取未标记样本，使得在标记完后可以最大化地减少所有分类器的模型损失[8]。在该方法中，首先学习一个表示多个领域的共同隐特征的子空间，再把全局特征空间分割为共同特征部分和领域相关特征部分。这样，每个数据样本带来的模型损失减少量可以被分解为两部分：领域相关损失减少量和全领域分类器共同损失的减少量。通过联合的选取数据样本，所有分类器的公用模型损失被减少，从而降低很多重复标记。　　1 用于跨领域分类的主动学习　　本章介绍与本文所讨论问题相关的若干定义：领域、跨领域分类、用于跨领域分类的主动学习。　　定义1 领域（Domain）。一个领域是由满足相同数据分布P（x）的数据实例组成的集合，这里x∈X，X是一个特征空间。　　例如　　一系列人脸的图像可以组成一个领域，因为它们有共同的特征空间（如皮肤颜色、眼睛部位、嘴唇形状等）。同样的，一些猫脸的图像也可以组成一个领域。同一领域内的图像特征是独立同分布，不同领域的图像特征不同。例如不能直接用猫脸的表情特征去形容人脸的表情。因此，跨领域分类问题可以定义如下：　　定义2 跨领域分类。给定K个不同领域中收集的数据样本集合，若X为一个特征空间，Y为标记的集合。跨领域分类的任务是为K个领域训练K个分类器： fl：X→Y（l= 1，2，…，K）。　　3 实验分析　　3.1 实验设置　　为了验证本文算法的分类性能，在UCI数据库[12]中选取了两个具有相似信息的数据集进行实验。一个是美国邮政手写体数字图像集（USPS），另外一个是手写数字图像集（Pendigits）。这是两个不同风格的图像，因此各自的字体等特征有差别，但表达的主题类似，因此可以看成具有相似特征的不同领域图像。分别将两个领域记为U和P，