- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于构词学的图片索引词质量提升策略
文程晔*
(北京邮电大学,北京市智能通信软件与多媒体重点实验室,北京 100876)
5
10
15
20
25
30
35
40
摘要:本文以基于英语文本的图片搜索为前提,以提高搜索结果质量为目的,提出了对搜索
引擎索引词文本的过滤处理策略,通过提高索引词质量来影响查询以及排序结果的质量。在
本文提出的策略中,依据按词性过滤的原则,应用构词学的词性分析、短语分析等处理方法
以及命名实体识别,剔除索引词中价值较低的部分,使索引词命中其对应图片的概率增高。
在本文中,使用自行实现的实验工具及实验环境对提出的策略进行了测试,实验结果表示对
搜索前 40 结果的 NDCG 值又明显提高。
关键词:图片搜索;相关性;构词学;命名实体识别
中图分类号:TP391
Morphology-based index stream quality improvement
strategy
Wen Chengye
(Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing
University of Posts and Telecommunication, Beijing 100876)
Abstract: In this paper,based on the English tesxt image search,for image search results
improvement, a index stream text filtering strategy is introduced.This strategy affect search results
and results ranking quality by improving index stream quality.In this strategy,based on part of
speech filtering principle, morphological operations and named entity recognition are used to
exclude less valuable parts in index stream and improve relevance between index text and images.
In this paper, with self-made experimental tool and environment, the strategy is test and the
experiment result shows that NDCG is improved significantly on top 40 search result.
Keywords: image search; relevance; morphology; named entity recognition
0 引言
随着搜索引擎技术的快速发展,除网页搜索之外,各式各样的非文本搜索也日益发展成
熟,图片搜索就是其中最重要的非文本搜索之一。图片这种媒体形式本身有着浏览快速、直
观表现力强、信息量大等特征,在信息传递中有不可取代的作用;但这样特有的信息特性也
为图片检索带来了新的挑战。
目前,图片信息的获取与检索技术可以分为两大类:基于内容的搜索和基于文本的搜索。
基于内容的图片检索通过图片本身的可视化内容(如颜色、纹理、形状等)进行索引。基于
文本的图片检索通过网页的文字信息中(如地址、图片名称、周围文字、网页标题等)提取
图片相关的描述信息,将其是作为图片的一种代理来完成对图片的指示。现今基于内容搜索
的实际应用正确率还不尽如人意,而基于文本的搜索技术相比于基于内容的搜索技术要成熟
得多,而且商业应用比比皆是,所以对基于文本仍然是当今图片搜索领域的重点。
由于在网页中,页面结构千变万化,文本和图片的组织是松散的,与图片主题最吻合的
文本很难保证每次都能精确定位,甚至在有些情景下这样的文本在网页上就不存在。由于图
片与文本的固有鸿沟,很难单纯的检查判断抽取的文本与目标图片是否相关,这就导致了在
抽取文本中势必存在很多噪声,影响索引词质量,降低了索引词与图片之间的相关性,进而
降低了返回结果与查询的相关性。常用的黑名单、停用词策略在处理这种噪声时,有时效果
作者简介:文程晔,(1987-),男,主要研究方向:智能信息处理. E-mail: wenchengye108@
-1-
不理想。本文就是考虑到上述情况,对索引词采用构词学处理和命名实体识别相结合的策略,
4
您可能关注的文档
- 第六届市场营销大赛中国联通校园推广策划书.doc
- 电化学单元专题复习小结.ppt
- 电化学原理小结、人教版.ppt
- 机械零件课程设计-用于带式运输机卷筒的传动装置设计.ppt
- 机械设计课程设计-带式运输机传动系统的齿轮减速器.ppt
- 房地产项目策划完整版.doc
- 分离乙醇—水混合液的浮阀精馏塔设计.doc
- 浮阀塔精馏工艺设计示例.doc
- 机械设计课程设计-带式运输机的传动装置.ppt
- 钢材进销存系统.ppt
- 班级元旦晚会策划书 班级元旦晚会策划书4篇.doc
- 班会会议记录格式及 班会会议记录(实用【7篇】.doc
- 认真学习《中国共产党纪律处分条例》PPT党的六大纪律课件.pptx
- 党纪学习教育PPT新修订的《中国共产党纪律处分条例》解读课件.pptx
- 关于严明党的纪律和规矩的重要论述PPT课件.pptx
- 2024年国九条PPT关于加强监管防范风险推动资本市场高质量发展的若干意见课件.pptx
- 2024干部一定要知敬畏存戒惧守底线PPT相关重要论述课件.pptx
- 推动经济实现质的有效提升和量的合理增长PPT学习教育课件.pptx
- 2024坚持“四步联动”做实党员教育工作PPT新时代党员教育工作课件.pptx
- 权威解读《关于加强社区工作者队伍建设的意见》PPT课件.pptx
文档评论(0)