领域本体支持下语义查询扩展研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
领域本体支持下语义查询扩展研究

领域本体支持下语义查询扩展研究   摘要:人们在利用搜索引擎进行信息检索时,较少的检索词难以反映用户真正的检索意图,因此对用户输入的检索词进行扩展尤为必要。对传统的查询扩展进行了改进,通过建立领域本体,借助本体及本体的推理机制,将用户输入的检索词从直接和间接两方面扩展为语义联系的查询关键词集合,以提高信息检索质量和效率。   关键词关键词:领域本体;语义扩展;信息检索   中图分类号:TP301文献标识码:A文章编号文章编号2013)011003704   0引言   随着Internet的不断发展,信息量增长突飞猛进,如何从海量信息中获取用户所需要的信息,成为一项极富现实意义的课题。目前人们比较习惯于通过反复输入不同关键词获取所需信息,对于用户来讲关键词的选取就显得尤为重要,但有可能因关键词的选用问题而漏掉有用信息,例如用户输入教育技术关键词进行查找,就会漏掉教学技术的相关信息,在国际上教育技术和教学技术是同一个概念,这样检索的查全率必然受到极大影响。Wen等通过对微软公司旗下MSN中的Encarta在线百科全书网站连续两个月的用户查询记录进行分析,发现49%的用户查询仅有其中一个单词,33%的查询有两个单词,用户平均使用1.4个单词描述它们的查询,这给基于关键词的查询系统带来了巨大的困难\[1\]。根据统计,人们用完全相同的词描述同一概念的可能性小于20%,并且当用户查询越短时不匹配的现象也越普遍,当查询词增多时,查询词在文档中出现的概率也大大增加,因此,对用户输入的关键词进行扩展十分必要。本文改进了传统的查询扩展,以教育技术学为例通过建立领域本体,加入了分词技术,借助本体及本体的推理机制,将用户输入的检索词从直接和间接两方面扩展为语义联系的查询关键词集合,以提高信息检索质量和效率。   1查询扩展研究综述   查询扩展((QueryExPansion,简称QE)技术是利用计算机语言学、信息学等多种技术,在原用户查询词的基础上通过一定的方法和策略把原查询相关的词、词组添加到原查询中,组成新的、更能准确表达用户查询意图的查询词序列,然后用新查询词对查询文档重新??索,从而改善信息检索中查全率和查准率低下的问题,解决信息检索领域词的不匹配问题,以弥补用户查询信息不足的缺陷。   查询扩展主要有全局分析、局部分析、基于用户查询日志、基于社会标签的查询扩展和语义概念查询扩展等方法。全局分析基本思想是对全部文档中的词或词组进行相关分析,计算每对词或词组间的关联程度,将词或词组按共同发生的频率进行聚类,其后根据词或词组的不同集合对查询进行扩展,优点是可以最大限度地挖掘词语之间的联系,但这是以时间和空间的消耗为代价的,当文档规模扩大到一定程度时,这种代价也是巨大的,全局分析通常适合处理线下查询。局部分析方法主要有相关反馈、局部反馈、局部上下文分析等方法。相关反馈查询扩展先使用初始查询对文档进行检索,用户对检索结果进行判断,筛选哪些文档是相关的、哪些文档是无关的,接着从那些用户认为与查询相关的文档中提炼出重要的词作为关键词,缺点是用户必须进行相关性判断,同时必须通过大量的实验才能在某个文档中得到其中最优的参数设定;局部反馈查询扩展是在相关反馈技术衍生的,最早由Rocchio提出,优点是与全局聚类相比开销小,提高了检索效率,但其算法对初始检索结果非常敏感,若中间文档与用户查询相关度很低,则该算法会降低检索性能;局部上下文分析的查询扩展从最初检索的文档中选出与原查询词共现的的词语,计算每一个词语与整个查询的相似度并排序,排在前面的词语作为扩展词,优点是解决了全局分析中计算量大及局部反馈中初值敏感的问题。相关实验结果表明,该方法可将查询精度平均提高20%以上。基于用户查询日志的查询扩展是大量用户使用检索系统进行查询后积累下来的反馈数据集合,对它进行分析就是使用众多用户查询活动的相关反馈。它在用户查询某条记录的基础上建立用户查询空间,在文档集上建立文档空间,根据用户日志将两个空间的词,按照用户提交某个查询所点击的文件以条件概率方式连接起来。当新的查询被提交时,系统选取与之相比对后被选择为扩展用词条件概率最大的文档加入查询。扩展词的好坏需要有大量的用户日志,而用户日志的建立需要一个时间积累过程。基于社会标签的查询扩展是利用统计用户收藏的标签,提取标签中的关键词,对标签进行聚类分成若干兴趣类,后续查询时根据用户查询所属类别的关键字进行扩展,文献\[2\]表明社会化标签查询词共现分析扩展法的效果较好,能通过结合现有标签资源实现良好的个性化搜索服务。语义概念查询扩展技术分为基于大规模语料库和基于语义关系(语义结构)两种,前者主要利用词语的共现性大且相关度也大的规律,来计算词语的相关性,并实现扩展,后者主要利用语义词典

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档