信息检索中基于项集的查询优化算法.pdfVIP

信息检索中基于项集的查询优化算法.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2012年 4月 情报探索 第 4期 (总 174期) 信息检索中基于项集的查询优化算法 米 黄名选 冯 平 (广西教育学院科研处 南宁 530023)(广西工学院电控 系 柳州 545006) 摘 要:提 出一种信息检索中基于频繁项集的查询优化算法。实验结果表明,该算法有效 ,其扩展词能提高和改善信 息检索 陛能 。 关键词 :频繁项集 查询优化 算法 信息检索 中图分类号:TP391.3 文献标识码:A doi:10.3969/j.issn.1005—8095.2012.04.023 1 引言 生成不 同的簇 ,组成全局叙词表 。或者对每个簇构造 查询扩展优化指的是修正用户原查询检索词 , 相应的局部叙词表 ,从叙词表中推荐与原查询相关 添加与原查询相关 的词/词组 ,更完整 、更准确地描 的词作为扩展词。其实验结果表明,这种方法确实能 述原查询所隐含的语义或主题,帮助信息检索系统 提高信息检索性能,主要缺陷是不能处理查询词的 判断文档的相关性,解决信息检索领域的词不匹配 歧义性问题 ,即假如一个查询词有多个意义 ,词的聚 问题 .以改善和提高信息检索系统的查询性能。查询 类算法会把词分配到不同的簇巾,从而使查询结果 扩展 的关键问题是扩展词的来源及其权值 的设置 。 更含糊 .查询性能可能会下降。崔骏等H0_在圣』J检的返 扩展词主要有 4个来源 :(1)来源于包含有词与词问 回结果文档集 中构造概念格 ,然后从概念格挖掘关 相关信息的资源 [1-2]。这种资源可以是人工生成 的, 联规则 ,从关联规则推荐扩展词实现查询扩展 ,取得 也可 以是利用大规模语料通过统计 的方法 自动生 了良好的效果。笔者 也曾对初检结果文档集挖掘 成 其 中两个人工生成 的资源例子是 “知 网”3¨ 完全加权关联规则 ,构造完全加权规则库 ,从库 中推 (HowNet)和 W“ordNet”l4]。知网是常识知识库 ,它是 荐扩展词。而冯平等 ¨从前列 n篇初检局部文 lt1 以汉语和英语 的词语所代表的概念为描述对象,揭 抽取与原查询相关的特征词 。构造特征词库 ,然后从 示概念与概念之间以及概念所具有的属性之间的关 库中推荐扩展词 。这些文献的实验结果表明,扩展词 系 。WordNe提供了英文单词之 间的复杂关系 ,包括 推荐方法都能有效地提高和改善信息检索性能 。 同义词 、反义词 、修饰词等词与词问的相关信息。(2) 综上所述 。当前查询扩展优化研究中,扩展词 的 来源于用户查询 日志[5-6]。用户的查询 日志是众多用 来源方式主要以第 4类为主 ,采用数据挖掘技术对 户使用检索系统时多次 “反馈”结果的积累。(3)来源 初检结果文档集进行分析处理 。笔者 曾针对查询扩 于整个文献集的信息 ,即先利用文献集中的所有 展优化的需要 ,提出了一种在初检结果中挖掘频繁 文档构造叙词表 ,然后从叙词表中推荐与原查询相 项集的算法,该算法的挖掘效率 比传统挖掘算法的 关 的词作为扩展词 。(4)来源于初检结果 中认为相关 高_1。本文在此基础上 ,进一步将挖掘算法获得的扩 的文档[9-12].即对第一次检索的结果进行分析 ,从 中 展词添加到原查询。并检验扩展优化的效果 选择更多的信息作为扩展词的来源。 2 基于项集的信息检索查询优化算法 贺宏朝l1利用知 网中的同义关系资源为每一个 2.1 扩展 词权 值设置 方法 查询词推荐扩展词 ,Rila等口使用 WordNet资源 中 频繁项集支持度常被用来衡量频繁项集在整个 提供 的信息进行英文信息检索词扩展研究 ,取得

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档