基于构词学的图片索引词质量提升策略.docVIP

基于构词学的图片索引词质量提升策略.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 基于构词学的图片索引词质量提升策略 文程晔* (北京邮电大学,北京市智能通信软件与多媒体重点实验室,北京 100876) 5 10 15 20 25 30 35 40 摘要:本文以基于英语文本的图片搜索为前提,以提高搜索结果质量为目的,提出了对搜索 引擎索引词文本的过滤处理策略,通过提高索引词质量来影响查询以及排序结果的质量。在 本文提出的策略中,依据按词性过滤的原则,应用构词学的词性分析、短语分析等处理方法 以及命名实体识别,剔除索引词中价值较低的部分,使索引词命中其对应图片的概率增高。 在本文中,使用自行实现的实验工具及实验环境对提出的策略进行了测试,实验结果表示对 搜索前 40 结果的 NDCG 值又明显提高。 关键词:图片搜索;相关性;构词学;命名实体识别 中图分类号:TP391 Morphology-based index stream quality improvement strategy Wen Chengye (Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunication, Beijing 100876) Abstract: In this paper,based on the English tesxt image search,for image search results improvement, a index stream text filtering strategy is introduced.This strategy affect search results and results ranking quality by improving index stream quality.In this strategy,based on part of speech filtering principle, morphological operations and named entity recognition are used to exclude less valuable parts in index stream and improve relevance between index text and images. In this paper, with self-made experimental tool and environment, the strategy is test and the experiment result shows that NDCG is improved significantly on top 40 search result. Keywords: image search; relevance; morphology; named entity recognition 0 引言 随着搜索引擎技术的快速发展,除网页搜索之外,各式各样的非文本搜索也日益发展成 熟,图片搜索就是其中最重要的非文本搜索之一。图片这种媒体形式本身有着浏览快速、直 观表现力强、信息量大等特征,在信息传递中有不可取代的作用;但这样特有的信息特性也 为图片检索带来了新的挑战。 目前,图片信息的获取与检索技术可以分为两大类:基于内容的搜索和基于文本的搜索。 基于内容的图片检索通过图片本身的可视化内容(如颜色、纹理、形状等)进行索引。基于 文本的图片检索通过网页的文字信息中(如地址、图片名称、周围文字、网页标题等)提取 图片相关的描述信息,将其是作为图片的一种代理来完成对图片的指示。现今基于内容搜索 的实际应用正确率还不尽如人意,而基于文本的搜索技术相比于基于内容的搜索技术要成熟 得多,而且商业应用比比皆是,所以对基于文本仍然是当今图片搜索领域的重点。 由于在网页中,页面结构千变万化,文本和图片的组织是松散的,与图片主题最吻合的 文本很难保证每次都能精确定位,甚至在有些情景下这样的文本在网页上就不存在。由于图 片与文本的固有鸿沟,很难单纯的检查判断抽取的文本与目标图片是否相关,这就导致了在 抽取文本中势必存在很多噪声,影响索引词质量,降低了索引词与图片之间的相关性,进而 降低了返回结果与查询的相关性。常用的黑名单、停用词策略在处理这种噪声时,有时效果 作者简介:文程晔,(1987-),男,主要研究方向:智能信息处理. E-mail: wenchengye108@ -1-  不理想。本文就是考虑到上述情况,对索引词采用构词学处理和命名实体识别相结合的策略, 4

文档评论(0)

文档分享 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档