浅析信息检索中的相关性.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浅析信息检索中的相关性.pdf

第25卷 第 12期 赤 峰 学 院 学报 (自然 科 学版 ) V01.25No.12 2009年 12月 JournalofChifengUniversity(NaturalScienceEdition) Dec.2009 浅析信息检索中的相关性 骆绍烨 (莆田学院 电子信息工程学系,福建 莆田 351100) 摘 要:相关性是信息检索中的一个基础概念,对信息检索相关性进行深入分析对于信息检索系统的 有效开发具有重要的理论指导意义.影响相关性的因素主要来 自四个方面,包括信息源、检索系统、用户、时 间和环境,其中人的因素是最为关键的影响因子.由于 “相关性”的不确定性,相关性评价一直饱受争议,目 前主要依据查全率和查准率来衡量系统的性能,其他常用的评价指标多是从查全率和查准率引申而来.相 关性直接影响到检索系统的性能,提高相关性判断的准确性主要从系统和用户两方面入手. 关键词:信息检索;相关性;影响因素;评价;改善措施 中图分类号:TP39l-3 文献标识码 :A 文章编号:1673—260X(2009)12-0042—03 相关性是信息检索中的一个基础概念.人们对 文档内容越具体,越有利于 “相关性”判断.文档的风 相关性的研究可以追溯到20世纪 50年代末,但 格也可能影响判断,而同一文献,根据其题名、文 “相关性”的定义一直难以达成一致,到 目前为止还 摘、全文来判断与特定提问的相关性,判断的结果 没有一个能够被广泛接受的、准确的定义.之所 以 也有差异. 会出现这种情况,主要是在于相关性本身的复杂 1.2 检索系统 性.尽管如此,我们从前人所研究的成果来分析,可 “相关性”的实现需要系统 “理解”用户的真正 以找到相关性的一些被普遍认可的共性.简单来 需求,这是进行 “相关性”判断的前提,因此检索系 说,信息检索中的相关性指的是信息源中的文档与 统的性能对 相“关性”有比较大的影响. 查询之间的一种匹配关系llJ.这种匹配关系是多维 首先,系统的覆盖率直接影响查全率.系统的 的、动态的、复杂的和可以衡量的[21. 文献很少,查到或查全用户所需的信息的概率 自然 1 影响 “相关性”的因素 不高.对于 目前海量的信息资源来说 ,系统的覆盖 信息检索不是确定性检索,它无法准确提供用 率呈下降趋势,即使是全球最大的搜索引擎Google 户所需要的答案或内容,而只是提供与解决问题有 也无法将所有的网页全部收录.因此, 系统的覆盖 关的信息.目前的检索系统所得到的系统相关往往 率对 “相关性”的影响也 日显明显. 与用户相关相差甚远.因 “相关性”是一个多维的动 其次,检索方式也直接影响检出的文献数量和 态的概念,影响它的因素也是多维的.现将对影响 质量,从而也影响着 相“关性”.分类检索、主题检索 相“关性”的主要因素进行分析. 等方式一般会降低查全率,但对于海量的信息来 1.1 信息源 说,查准率往往可以得到大幅提高. 信息源顾名思义就是信息的来源,也就是信息 再次,检索系统一般通过词形相关、语义相关、 检索的对象,它对用户的相“关性”判断有直接的影 语用相关来判断 “相关性”.目前大多数系统都只提 响.信息源可分为三种:文档、文档的替代物和信息. 供词形相关的判断,语义相关的判断还不完善,语 每种代表了不同的层次.文档在底层,指用户能够 用相关也用的极少. 检索出的结果实体.文档的替代物则是从文档中抽

文档评论(0)

叶峰 + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档