无标记数据学习及其在图像检索中应用.docVIP

下载本文档

12
0
约4.63千字
约 8页
2017-09-07 发布于福建
举报
版权申诉

无标记数据学习及其在图像检索中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

无标记数据学习及其在图像检索中应用

无标记数据学习及其在图像检索中应用摘要：机器学习的应用中，通常存在大量的未标记示例，对这些数据进行标记是昂贵和耗时的。与传统的监督学习不同，基于无标记数据的学习能同时在少量的已标记数据和大量的未标记数据上进行学习，从而提高学习的性能，已成为目前机器学习领域中的一个研究热点。分析了基于无标记数据的学习适用基于内容的图像检索的原因，并阐述了相关研究的进展情况。关键词：机器学习；数据挖掘；半监督学习；主动学习；分类；图像检索中图分类号：TP317.4 文献标识码：A 文章编号2013）003015802 0 引言机器学习能自动地从数据中获取相关信息，进行学习，通过学习到的经验来改善计算机系统自身的性能。传统的监督学习算法（supervised learning）为了获得高的准确性，要求大量的已标记（labeled）数据。当这种已标记的数据不足时，该学习算法的准确性也会随之降低。但是给数据加上标记（labeling）是一个困难、昂贵和耗时的工作，它要求有经验的专家对数据进行一一判读和做标记。例如在计算机辅助医学图像分析中，可以从医院获得大量的医学图像作为训练案例，但如果要求医学专家把这些图像中的病灶都标识出来，则往往是不现实的。在真实世界的许多问题中通常存在大量的未标记示例，但有标记示例则比较少。因而在很多实际数据集中，未标签样例的数量远大于已标签样例的数量。如果只使用少量已标签样例，那么有监督学习训练得到的学习模型不具有很好的泛化能力，同时造成大量未标签样例的浪费；如果只使用大量未标签样例，那么无监督学习（nonsupervised learning）将会忽略已标签样例的价值。因此，研究如何利用少量已标签样例和大量的未标签样例来提高学习性能的半监督学习（Semisupervised Learning）成为当前机器学习的重要研究领域之一。半监督学习研究主要关注当训练数据的部分信息缺失（包括数据的类别标签缺失、数据的部分特征维缺失、噪声等）的情况下，如何获得具有良好性能和泛化能力的学习机器。目前，该学习方法已应用于目标识别和跟踪、网页和电子邮件的分类等各方面。当前，基于无标记数据的学习主要分为3类：半监督学习（semisupervised learning）、直推学习（transductive learning）和主动学习（active learning）。半监督学习在学习过程中利用少量的有标记数据的同时，自动利用无标记数据，不需要人为地干预。直推学习与半监督学习类似，也是在学习的过程中自动地利用无标记数据，不需要人为地干预。它与半监督不同的地方在于：直推学习的目标是在一个已知的测试集上追求最好的泛化能力，且这个测试集就是学习过程中用到的未标记数据；而半监督学习则没有假设这样一个已知的测试集。主动学习与半监督学习和直推学习的不同点在于：在学习的过程中，利用无标记数据时，需要人的干预，即需要向一个神谕（oracle），如向领域专家进行咨询，以确定一些无标记数据的标记到底是什么。为了使查询的次数最小，必需选择那些能传递最多有用信息的无标记数据进行查询。 1 适用缘由随着数字图像容量的快速增长，要求检索系统能够根据用户提供的查询图像自动地从图像库中检索出相似图像的需求越来越大。基于内容的图像检索（contentbased image retrieval，CBIR）已成为研究重点。使用者可以提交一副图像，要求智能系统能从相应的图像数据库中找出与之相关的图像。CBIR最主要的困难在于：图像低层次的图像特征与高层次的语义之间不好直接建立联系。相关性反馈（relevance feedback）被证明是解决该困难的一个有力的工具。在相关性反馈方法中，用户可以先对一些图像进行标记，即标记这些图像与自己要检索的目标图像是相关的或不是相关的。这些被标记的图像，作为辅助数据提供给CBIR系统，能使最后检索出的图像与用户的期望更接近。事实上，CBIR的检索引擎可以看成一个机器学习过程，即：根据用户提供的检索图像，CBIR系统试图训练得到一个分类器，该分类器能将CBIR系统数据库中的图像分为两类：相关的或不相关的。但是，上述的学习过程与使用传统的监督学习有很大不同。在检索的过程中，很少有人能耐心地向CBIR系统提供较多的图像，从机器学习的角度看，即用户提供的用来训练CBIR系统的有标记的实例数据很少。对于传统的监督学习算法来说，如果提供的有标记的示例数据少，则学习后生成的分类器的泛化能力就差，分类的精度就不高。这与引言中提到的基于无标记数据学习的背景很相似：一方面用户提供的示例数据少；另一方面，数据库中存在大量的无标记的数据。显然，可以利用基于无标记数