信息检索中效率问题的研究13.ppt

信息检索中效率问题的研究13

信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日 信息检索(IR)的基本概念(一) 信息检索和数据库管理系统(DBMS)的区别: DBMS处理对象是结构化数据,IR处理大量的非结构化数据。 DBMS只是管理数据,IR要管理数据的内容——内容管理(content management)。 DBMS的每次事务的结果是确定的,IR系统的任务是找到用户需要的信息,其结果是不精确的。 信息检索(IR)的基本概念(二) 信息检索的两大问题:效率(efficiency)、效果(effectiveness)。 效果指标:查准率(precision)和查全率(recall)。 效率指标:响应时间(response time)和吞吐量(throughput)。 文本信息检索效果的提高依赖于自然语言处理(NLP);信息的指数增长使得检索效率也成为不可忽略的问题。 信息检索(IR)的基本概念(三) 信息检索系统的组成部分: 信息检索(IR)的基本概念(四) 基本用户查询(query): 逻辑操作(AND,OR,NOT)。 位置邻近查找(Proximity Search),短语查找(Phrase Search)。 对原始信息创建索引加快检索速度: Inverted file , signature file

文档评论(0)

1亿VIP精品文档

相关文档