- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第47卷第3期 大连理工大学学报 VOI.47。NO.3
2 0 0 7
2007年5月 JournalofDalian of May
UniversityTechnology
一种基于同义词词典的模糊查询扩展方法
马晖男‘, 吴江宁, 潘东华
(大连理工大学系统工程研究所,辽宁大连 116024)
摘要:在信息检索系统中,查询扩展是一种非常有效的改进检索性能的方法.为此,提出一
种基于同义词词典的模糊查询扩展方法.该方法中的同义词词典是基于著名的语义词典
WordNet中的同义词集合建立的,同义词之间的贴近度[o,1]使用Tanimoto系数获得.利
用该词典,能够进行较好的查询扩展.将该方法与向量空闻模型结合应用于文本信息检索系
统中,所构造的检索模型相当于一种简单的语义模型,并且可以根据阈值来控制查询扩展的
程度.所得试验结果表明,使用该查询扩展方法的信息检索系统较常规信息检索系统的检索
性能有一定改善.
关键词:模糊查询扩展;同义词词典;信息检索
中图分类号:TP391文献标识码:A
0 引 言 需求相关的信息,解决因用词不同而造成的检索
效率不高的问题.查询扩展主要有3种方法:以
随着网络信息时代的到来,信息日新月异,并
查询语句为基础的查询扩展,以语料库为基础的
呈指数增长,人们已经生活在海量的信息数据世
查询扩展,以及以语言分析特征为基础的查询扩
界中.为使用户快速、高效地找出与其需求相关
展.
的信息,高性能信息检索系统显得越来越重要.
本文采用以查询语句为基础的扩展策略,提
在传统的基于关键词的信息检索系统中,用
出一个基于同义词词典的模糊查询扩展方法,构
户给定的查询语句与文本常常被解析成独立的实
建符合使用者信息需求的检索机制,以增进文本
词,主要为名词、动词、形容词、副词.利用这类系
检索系统的检索效益.
统进行检索时,常会有两种现象出现:(1)检索
时,系统将名词、动词、形容词、副词单独看待,尽 1 同义词词典的结构
管在改进的模型中加入了一些逻辑运算符,但始
1.1 同义词词典的建立
终无法清晰地表示这些词间的语义关系,尤其是
通常,查询扩展是以同义词词典为基础进行
形容词和副词脱离上下文后,很难识别其正确的
的,为此研究中首先建立了模糊同义词词典,该词
语义,而由于这些语义不确定的实词参与检索过
典能够针对给定的词及其词义,提供它的一组同
程,系统常常产生许多与用户查询不相关的信息;
义词以及相应的对给定词的贴近度.
(2)检索时,用户表达查询需求可以使用异形同
文档评论(0)