第八章 信息检索系统及评价培训资料.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 信息检索系统及评价培训资料.ppt

影响响应时间的因素 (1)文献库规模:规模越大,检索时间越长,响应时间值也就越大。 (2)机器速度:主机运行速度越快,响应时间越短。 (3)检索软件:检索软件是关键,其性能越好,检索时间就越短。 (4)存储设备类型和数据的存贮结构:存储设备的访问速度越快,数据的存贮结构(外存贮)越合理,检索越容易,响应时间也就越短。 (5)提问组配形式:检索式的构造需要有一定的专业技能和检索经验,是一个不断修改和完善的过程。 (6)信息中心与检索者的距离:通信传输时间与距离有关。 存贮空间开销 包括系统所占用的内存空间和外存空间。 对内存空间,当检索系统采用大、中型计算机时,一般不必考虑;而当系统采用小型、微型机时,因内存空间有限,就需合理分配。 对外存空间,不同的文档结构所需存储空间差别很大。例如,顺排文档检索和倒排文档检索所需空间不同;而对倒排检索,系统仅提供布尔检索功能与提供正文检索功能相比,所需的空间也大不一样。 其它指标 新颖率(Novelty ratio,N):指一次检索中检出的相关文献有多少篇是新文献。(反映文献库更新程度) 检出的新的相关文献量 N = ———————————— 检出的相关文献总量 信息覆盖率(Coverage,C):也称收录范围,是指文献库复盖的学科范围、信息类型、数量和时间跨度。 给定时间内系统收录的文献总量 C = ————————————————- 同期相关领域中的实际文献量 图示覆盖率和新颖率 相关文献|R| 结果集|A| 用户已知的相关文献|U| 检出的用户以前未知的相关文献|Ru| 检出的用户已知的相关文献|Rk| 国外的评测 TREC评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索(IR) 界为进行检索系统和用户评价而举行的活动, 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)(美国国防部) 共同资助,开始于1992年。 NTCIR评测 NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics,简称NII)主办的搜索引擎评价型国际会议 CLEF评测 CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展, CLEF的目标只在于跨语言信息检索以及多语言信息检索方面 TREC评测(Benchmark) TREC: Text REtrieval Conference (/) 1992年开始,每年一次 由美国国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术研究所National Institute of Standards and Technology (NIST)联合发起 参加者免费获得标准训练和开发数据 参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者 组织者对各参赛者的结果进行评价 包括检索、过滤、问答等多个主题 指示型数据库 存储实体(如机构、人物)的一般指示描述的一种参考数据库。 又称字典型数据库,用于用户参考和指南的各类文献信息 公司名录数据库、人物传记数据库、技术标准数据库、产品指南数据库和大学指南数据库。 万方数据库机构人物数据库、医生咨询数据库(PDQ) 数值数据库 以数值型数据为主的数据库 从文献资料中分析提取出来数据、或是实验、观测和统计中得到的数据建立的数据库 分为纯数值型数据库和文字/数值型数据库。 万方公司的CSTPC(中国科技论文统计与分析库),中国科学院的工程化学数据库和图谱数据库,以及中国统计数据库都是此类 术语数据库 由主文档和相应索引文档组成 字段结构反映术语的各种属性 主要用于辅助翻译和辞书编撰的工具 如中国知网的术语数据库 信息检索各功能模块-理解用户界面 用户界面主要承担用户与系统之间的通讯任务,完成人机交互和对话 界面设计一定要强调人的因素,是界面适应人而不是用户适应界面 功能: 帮助用户理解和表达信息需求 帮助用户构造检索式,拟定检索策略 帮助用户选择有效的信息源 帮助用户理解和控制检索结果 帮助用户跟踪检索过程 信息检索各功能模块-用户获取信息的特性和能力 人的特性: 人获取信息的多通道性 人的易出错性和易疲劳性 用户的层次和发展性 人获取信息的能力

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档