- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2012年 4月 情报探索 第 4期 (总 174期)
信息检索中基于项集的查询优化算法 米
黄名选 冯 平
(广西教育学院科研处 南宁 530023)(广西工学院电控 系 柳州 545006)
摘 要:提 出一种信息检索中基于频繁项集的查询优化算法。实验结果表明,该算法有效 ,其扩展词能提高和改善信 息检索
陛能 。
关键词 :频繁项集 查询优化 算法 信息检索
中图分类号:TP391.3 文献标识码:A doi:10.3969/j.issn.1005—8095.2012.04.023
1 引言 生成不 同的簇 ,组成全局叙词表 。或者对每个簇构造
查询扩展优化指的是修正用户原查询检索词 , 相应的局部叙词表 ,从叙词表中推荐与原查询相关
添加与原查询相关 的词/词组 ,更完整 、更准确地描 的词作为扩展词。其实验结果表明,这种方法确实能
述原查询所隐含的语义或主题,帮助信息检索系统 提高信息检索性能,主要缺陷是不能处理查询词的
判断文档的相关性,解决信息检索领域的词不匹配 歧义性问题 ,即假如一个查询词有多个意义 ,词的聚
问题 .以改善和提高信息检索系统的查询性能。查询 类算法会把词分配到不同的簇巾,从而使查询结果
扩展 的关键问题是扩展词的来源及其权值 的设置 。 更含糊 .查询性能可能会下降。崔骏等H0_在圣』J检的返
扩展词主要有 4个来源 :(1)来源于包含有词与词问 回结果文档集 中构造概念格 ,然后从概念格挖掘关
相关信息的资源 [1-2]。这种资源可以是人工生成 的, 联规则 ,从关联规则推荐扩展词实现查询扩展 ,取得
也可 以是利用大规模语料通过统计 的方法 自动生 了良好的效果。笔者 也曾对初检结果文档集挖掘
成 其 中两个人工生成 的资源例子是 “知 网”3¨ 完全加权关联规则 ,构造完全加权规则库 ,从库 中推
(HowNet)和 W“ordNet”l4]。知网是常识知识库 ,它是 荐扩展词。而冯平等 ¨从前列 n篇初检局部文 lt1
以汉语和英语 的词语所代表的概念为描述对象,揭 抽取与原查询相关的特征词 。构造特征词库 ,然后从
示概念与概念之间以及概念所具有的属性之间的关 库中推荐扩展词 。这些文献的实验结果表明,扩展词
系 。WordNe提供了英文单词之 间的复杂关系 ,包括 推荐方法都能有效地提高和改善信息检索性能 。
同义词 、反义词 、修饰词等词与词问的相关信息。(2) 综上所述 。当前查询扩展优化研究中,扩展词 的
来源于用户查询 日志[5-6]。用户的查询 日志是众多用 来源方式主要以第 4类为主 ,采用数据挖掘技术对
户使用检索系统时多次 “反馈”结果的积累。(3)来源 初检结果文档集进行分析处理 。笔者 曾针对查询扩
于整个文献集的信息 ,即先利用文献集中的所有 展优化的需要 ,提出了一种在初检结果中挖掘频繁
文档构造叙词表 ,然后从叙词表中推荐与原查询相 项集的算法,该算法的挖掘效率 比传统挖掘算法的
关 的词作为扩展词 。(4)来源于初检结果 中认为相关 高_1。本文在此基础上 ,进一步将挖掘算法获得的扩
的文档[9-12].即对第一次检索的结果进行分析 ,从 中 展词添加到原查询。并检验扩展优化的效果
选择更多的信息作为扩展词的来源。 2 基于项集的信息检索查询优化算法
贺宏朝l1利用知 网中的同义关系资源为每一个 2.1 扩展 词权 值设置 方法
查询词推荐扩展词 ,Rila等口使用 WordNet资源 中 频繁项集支持度常被用来衡量频繁项集在整个
提供 的信息进行英文信息检索词扩展研究 ,取得
您可能关注的文档
- 辛集市地下水环境质量评价与分析.pdf
- 信奉作为学校文化内化途径的探讨.pdf
- 信生可湿性粉剂防治柑橘疮痂病药效试验.pdf
- 信托法视角下的“合作托管造林”.pdf
- 信息差,语言交际的真义所在.pdf
- 信息分析与预测产业化的法律环境.pdf
- 信息复制时代的新闻泡沫.pdf
- 信息共享对供应链牛鞭效应减弱效果分析.pdf
- 信息化餐饮业的盛宴.pdf
- 信息化搭起“阳光快车”实现“阳光帮扶”.pdf
- 中国行业标准 DB/T 100-2024区域性地震安全性评价.pdf
- 《GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架》.pdf
- GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架.pdf
- DB/T 100-2024区域性地震安全性评价.pdf
- 中国行业标准 GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架.pdf
- 校园周边书店阅读氛围对初中生阅读素养提升的影响研究教学研究课题报告.docx
- 初中校园餐饮卫生监管与食品安全教育创新模式研究教学研究课题报告.docx
- 《文化遗产保护与旅游开发平衡机制的法律法规完善研究》教学研究课题报告.docx
- 《农作物病虫害生物防治技术的经济效益与社会影响分析》教学研究课题报告.docx
- 1 剖宫产术后子宫瘢痕憩室治疗中的并发症预防与护理措施教学研究课题报告.docx
文档评论(0)