图像自动标注技术的研究进展.docVIP

下载本文档

61
0
约1.98万字
约 31页
2018-10-14 发布于福建
举报
版权申诉

图像自动标注技术的研究进展.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图像自动标注技术的研究进展

图像自动标注技术的研究进展　　摘要：现有图像自动标注技术算法可以大致划分为基于语义的标注算法、基于矩阵分解的标注算法、基于概率的标注算法以及基于图学习的标注算法等四大类。介绍了各类别中具有代表性的图像自动标注算法，分析了这些算法的问题模型及其功能特点，并归纳了图像自动标注算法中主要的优化求解方法及算法评价中常用的图像数据集和性能评价指标。最后，指出了图像自动标注技术目前存在的主要问题，并且提出了这些问题的解决思路。分析结果表明，对于图像自动标注技术的研究，可充分利用现有算法的优势互补，或借助多学科交叉的优势，寻找更有效的算法。　　关键词：图像检索；图像自动标注；标签填补；标签去噪；标签预测　　中图分类号：TN911.73； TP391.413 　　文献标志码：A 　　0引言　　随着数码技术和互联网技术的迅速发展，出现了大量的社会化多媒体共享平台，海量的图像资源被用户共享到这些平台上，人类进入了大数据时代。在如此大规模的图像资源中，为了有效地管理和查询所需资源，图像检索技术出现在人们的视线中，成为了计算机领域的研究热点之一。计算机领域的研究人员从不同角度对其进行了大量研究。20世纪70年代末期，基于文本的图像检索（Text-Based Image Retrieval， TBIR）技术[1]作为最早的图像检索技术出现。TBIR的图像标签需要手工标注，面对图像数据库的增长，消耗大量人力和物力资源，不适用于图像数量巨大的数据库。不过当时获取图像设备比较昂贵，图像集数目比较小，早期的TBIR技术能够满足当时的需求。　　20世纪90年代初，为了克服TBIR技术的缺陷，出现了基于内容的图像检索（Content-Based Image Retrieval， CBIR）技术[2]，CBIR可以自动提取图像视觉特性，不需要人工干预，并且使用计算机自动实现对颜色、形状、纹理等低层视觉特征的提取和存储。低层视觉特征主要是从颜色特征、纹理特征、形状特征和空间关系特征这4方面[3]进行特征提取。针对不同的应用情况，CBIR可以采用任意不同的特征或特征组合来描述图像的视觉内容，但是，CBIR仍然存在一些问题：底层视觉特征多样性使刻画较强的视觉特征成为难题，而且在低层视觉特征和高层语义特征之间存在“语义鸿沟”的缺陷。　　进入21世纪以来，互联网技术发展迅速，网页数量成倍增长，图像资源成倍增加。TBIR技术的巨大工作量和CBIR技术的“语义鸿沟”对图像检索的影响逐渐变大，它们已经不能很好地满足用户进行图像检索的需求。于是，Kulkarni[4]从关联性的思想出发，提出了基于联想的图像检索（Association-Based Image Retrieval， ABIR）技术。ABIR技术采用双向联想记忆模型来存储图像的关联关系[5]。ABIR技术不够成熟，不太适用于实际应用。由于用户习惯于使用标签进行需求查询，并且现有的互联网搜索引擎大都是提供基于文本的图像检索；但是人工标注的高代价、主观性和不完整性影响了图像标注的精确性，使得图像检索的效率降低。为了解决这一问题，图像自动标注（Automatic Image Annotation， AIA）技术逐渐发展起来，并成为了诸多研究者关注的热点。AIA技术[6]可以利用已标注的图像集或其他可获得的信息自动学习语义概念空间与视觉特征空间的关系模型，并用此模型标注未知语义的图像；而且通过在图像的高层语义特征和底层特征之间建立一种映射关系，它可以解决一定程度的“语义鸿沟”问题。互联网图像自动标注技术的难点主要集中在3方面：1）互联网标注者的复杂性。图像标签的标注者为互联网用户，他们来自不同的国家、拥有不同的文化背景和不同的性格特点，这些差异导致图像标注因人而异，从而决定了图像和标签之间的复杂对应关系，增加了图像标注问题的复杂性。2）互联网图像标签的缺失性和多义性。互联网用户往往对图像标注不完整，这大大降低了图像检索的精确度。标签也具有一词多义性和多词一义性，导致标签语义的丰富性，从而进一步加大了图像标注问题的难度。3）互联网图像视觉内容的多样性。不同的互联网用户因各种自身因素和外部因素的影响，使同一标签呈现出不同的图像视觉内容，这使得图像和标签之间的对应关系更加复杂。　　本文根据学习方法的不同，将现有算法划分为基于语义的图像自动标注算法、基于矩阵分解的图像自动标注算法、基于概率的图像自动标注算法以及基于图学习的图像自动标注算法等，并分别介绍了各类方法中代表性算法的问题模型及其功能特点。然后给出了图像自动标注算法中主要的优化求解方法及算法评价中常用的图像数据集和性能评价指标，最后探讨了自动图像标注技术目前存在的主要问题及其解决思路。　　1图像自动标注问题模型　　假设I={xi∈Ri=1