信息检索教程(第一章)资料.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 备注: 目前,信息检索效果主要从三个方面进行评价。 (1)检索结果有效性评价,主要以查全率和查准率为评价标准; (2)检索系统实用性的评价,包括系统对用户是否需要,是否实用,有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法; (3)检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。 * 备注: 2×2表反映了检索系统在实施某一次检索时所得的结果状况。其中a表示被检出的相关文献,即查准的信息;b表示被检出的非相关文献,即误检的信息;c表示未检出的相关文献,即漏检的信息;d表示未检出的非相关文献,即正确拒绝的无关信息。信息检索系统中参加检索的全部文献量为(a+b+c+d)。从检索系统角度来看,它们可以分为被检出文献(a+b)和未检出文献(c+d)两部分,因为两部分文献反映了检索系统处理是否与检索提问相关,故称之为系统相关性测报。从用户的角度来看,检索系统文档中参加检索的全部文献也可以分为两个部分:一部分与用户需要相符,称为相关文献(a+c);另一部分与用户需求不符,称为非相关文献(b+d)。因为这两部分文献反映了用户判断是否与检索需要相关,故又称之为用户相关性判断。 查全率指检出的相关文献信息量与检索系统中相关文献信息总量的比率,它反映出信息检索系统检出相关文献信息的能力。具体公式如下: 查全率=[检出相关文献信息量/检索系统中相关文献信息总量]×100%=(a/a+c)×100% 查准率指检出的相关文献信息量与检出文献信息总量的比率,它反映出信息检索系统的精确度,说明系统排除干扰,减少噪声的能力。具体公式如下: 查准率=[检出相关文献信息量/检出文献信息总量]×100%=(a/a+b)×100% 虽然查全率与查准率能较好地反映出一个检索系统的检索效果,但是在实际操作过程中,这两个指标也存在一定的局限性。首先,在计算查全率时,一个检索系统中总共有多少相关文献(a+c)难以确切计算,而只能是大概估算;其次,在计算查准率时,用户对文献的相关性估计与系统的相关性判断不一定是完全吻合的,而且,不同的用户对相关文献的认识也可能不一致,存在着太多的主观成分和一些模糊概念,因此,用上述方法求得的查全率与查准率并不是绝对的,而只能是相对近似地描述检索效果。 传统的情报检索理论认为:查全率与查准率具有互逆相关关系,也就是说,如果提高检索的查准率,就会降低检索的查全率。该论点首先来源于英国学者克里维顿(C.Cleverdon)的著名Cranfield实验。美国的兰卡斯特在他的《情报检索系统———特性,试验与评价》一书中也明确提出“查全率与查准率总是相反的关系”,而且根据50次检索的调查结果绘制出了有名的经验曲线,反映出查全率和查准率之间的互逆关系。 目前,一些学者对查全率和查准率的关系进行了深入研究,提出这两个指标之间不仅存在互逆关系,而且还可以存在互顺关系和其他关系,并通过检索实例、理论描述和数学推理等论证了此观点。[1]证明查全率与查准率之间的关系与检索提问式的结构有关,不同的检索条件下,查全率与查准率之间将呈现以下三种不同的关系:当由于检索策略的变化,使得检索到的相关记录的变化量与全部命中记录的变化量之比小于相关记录与命中记录数之比时,查全率——查准率呈现逆变关系;当由于检索策略的变化,使得检索到的相关记录的变化量与全部命中记录的变化量之比大于相关记录数与命中记录数之比时,查全率——查准率呈现顺变关系;当由于检索策略的变化,使得检索到的相关记录的变化量与全部命中记录的变化量之比等于相关记录数与命中记录数之比时,查全率可能变化,而查准率不变。[2] * 备注: 案例 安徽安特酒集团利用网络进行市场信息的检索实例 安徽安特酒集团是我国特级酒精行业的龙头企业,全套设备及技术全部从法国引进。其主要产品是伏特加(Vodka)酒及分析级无水乙醇。其中无水乙醇的销量占全国的50%以上。伏特加酒通过边境贸易,向俄罗斯等前苏联国家出口达到1万吨,总销售额超过1亿元。 伏特加酒作为高附加值的主打产品,是安特集团利润的主要来源。但是,随着俄罗斯等前苏联国家的经济形势的日趋恶化,出口量逐年减少,形势不容乐观。安特集团审时度势,决定开始通过Internet进行网络营销,开辟广阔的欧美市场。集团确定了信息收集的三个方向: (1)价格信息;生产商报价、批发商报价、零售商报价、进口商报价。 (2)关税、贸易政策及国际贸易数据,关税,进口配额、许可证等相关政策,进出口贸易数据,市场容量数据。 (3)贸易对象,即潜在客户的详细信息,包括贸易对象的历史、规模、实力、经营范围和品种、联系方法等。 根据信息需求,安徽安特酒集团利

文档评论(0)

基本资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档