- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013年7月 重庆师范大学学报(自然科学版) Jul.2013
of Normal
第30卷第4期 Journal Science) Vol。30No.4
ChongqingUniversity(Natural
信息检索技术中基于语义的扩展查询研究+
李兴春
(重庆文理学院教学部,重庆永川402160)
摘要:用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体
自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基
础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进
行修正,得到了组合向量空间模型歙(Q,G)=:叫。*m_J%z(qK,G),作为引入查询扩展后的查询结果相关度
^=1.….K
评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入
的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索
结果,这在一定程度上弥补了垂直检索系统发展的不足。
关键词:信息检索;语义相似度;扩展查询
中图分类号:TP391.1 文献标志码:A
目前搜索引擎的主要工作方式是:搜索服务提供公司抓取互联网上的网页、分析网页并针对其中内容建立
索引,用户提交一定长度的检索请求,由搜索引擎服务器通过基于关键字匹配技术检索出相关的内容,并通过一
定的排序算法呈现在用户面前。在这种基于关键词的检索系统中,只有当用户的查询词出现在文档中,这个文
档才有可能被检索到。由于自然语言的复杂性,常常存在下面两种情况:一个概念可以有很多种不同的表达方式,
相同概念在不同场景下往往有不同的含义,即自然语言中的同义词和多义词;两个概念存在语义上或逻辑上的关
联,但仅仅基于关键字的查询系统无法找出这些隐含的关系。因此,关键词查询系统中查全率往往不尽人意,经常
会出现与用户查询词在语义上匹配的信息无法被检索出来的情况,这时用户就不得不变换查询词来找到所需要的
信息。查询扩展(Query
查询词相关的概念术语也一起并作查询概念词以形成最终详细的查询信息关键词集。基于本体的检索查询扩展主
要是检索词的概念语义扩展,主要包括同义扩展、语义蕴涵、外延扩展及语义相关联想等一系列推理方式u’3]。
通过查询扩展得到的概念关键词集合不仅提高了查全率,也一定程度上细化了用户搜索需求,从而提升了
检索操作的用户体验。但由于扩展得到的关键词集合本身没有按照相关程度进行排序,因此不能完整真实地反
映领域知识中的关联特点。这样需要利用语义相似度算法来进行计算和排序。但最终的排序,还必须结合检索
页面与检索词的相似度来进行综合排序HJ。
按照来源的不同,语义查询扩展的方法主要分为两类[5]:一类是基于语义关系/语义结构的方法,它借助于
已有的词典、本体,这样会对于检索词有所要求;另一类是基于大规模语料库的方法,这对语料库的要求较高,并
且需要先找出所有可能的查询词,才能求出其相关扩展概念集和其“查询词语一概念”相关度大小,并存库,否则每
次查询过程都重新计算会消耗不少时间和内存,导致检索效率低下。
Net是描述概念与概念间关系以及概念的属性与属性间关系的知识系统。现在最显著的就是基于知网研发的概
念相似度计算软件和概念相关场计算软件。和知网不同的是,WordNet在一开始概念定义的时候就采用了网状
结构,对每个概念的定义中都同时标注了他的上下位关系词、同义词、反义词等,而HowNet对概念的定义则是
完全孤立的,单纯的从概念的应用方法角度进行定义‘6。。。
知网的查询扩展借助于其基本单位——义原。由于一个整体的各个不同部分在整体中的作用是不同的,只
有在整体中起相同作用的部分互相比较才有效,通过对这两个整体(词语)的各部分(义原)之间建立一一对应关
原创力文档


文档评论(0)