信息检索研究:过去三十年中我们走了多远 - 清华大学智能技术与系统 .pdfVIP

  • 4
  • 0
  • 约2.09万字
  • 约 7页
  • 2017-09-03 发布于天津
  • 举报

信息检索研究:过去三十年中我们走了多远 - 清华大学智能技术与系统 .pdf

信息检索研究:过去三十年中我们走了多远 - 清华大学智能技术与系统

信息检索研究:过去三十年中我们走了多远* 马少平,张敏 {msp,z-m}@ (清华大学计算机科学与技术系 北京 100084) 摘要: 本文以对信息检索领域最顶级的国际会议 SIGIR 三十年来论文主题的分析为切入点,结 合近来年对相关领域的研究和实践,对信息检索研究的发展变化历程和趋势进行总结和分析。 关键词:信息检索,SIGIR 回顾现代信息检索方法与技术发展,从 1971 年第一次信息检索相关的国际会议 SIGIR 的召开到现在,已经经历了超过三十个年头的历程。在这过去的三十年里,人们从最初开始 探讨什么是信息检索,尝试设计信息检索系统的基本体系架构,研究应该如何高效地存储文 档,如何判断文档与用户查询的相似性等最基本的问题开始,到在互联网上帮助人们进行信 息查找的搜索引擎的出现并得到广泛应用,再到后来更多更高级更深层次的技术的提出,直 到今天,人们开始感慨“搜索无处不在”,开始讨论什么是“下一代搜索引擎”。三十年的时 间里,我们都做了些什么?有哪些问题是研究者们所一直关注着的问题?又有哪些问题经过 历史的发展已经渐渐被人们遗忘和冷落?有哪些是随着社会和技术的进步所提出的新的课 题? 在这里,我们在近年来对信息检索的研究和实践的基础上,以分析信息检索领域最顶级 的国际会议 SIGIR 在这三十年中所收录的论文及其主题的发展变化为切入点,尝试由此映射 出整个信息检索领域相关研究发展变化的历程和趋势,一起回顾和总结一下在信息检索研究 的道路上,我们已经走了多远?我们还有多远的路要走? 一、 信息检索模型的发展与变革 进行信息检索方法研究需要解决的第一个问题就是检索模型和结构。 从最初起,信息检索的系统设计就是沿着两条路来走的:一是借鉴结构化数据处理的基 础和知识,借助数据库等已较为成熟的技术来实现文档的全文检索;二是不拘泥于已有的技 术思路,而从文档本身的特点出发,设计并实现专门用于信息检索的体系结构。在开始的十 年里,在这两条道路上不同的研究者们都分别进行了充分地尝试,研究并设计出了不同的信 息检索体系结构。可以说,这时面向结构化数据的信息检索还占据了相当重要的地位。但是 当我们把目光转入 90 年代之后,就会发现与结构化数据存储和检索相关的研究在人们的视 线中只是偶尔出现了。直到进入 2000 年,这条分支似乎又有所复苏 —— 但是事实上,与 二十年前相比,人们已经转变了思路,或者说开辟了一条新的道路——基于以 xml 为代表的 半结构化数据的检索。于是,最初形成的两条分支开始呈现出一定程度的融合趋势。 在信息检索的一般方法和理论层面,研究者们的努力从来都没有停懈过,只是研究的关 注点会随着时间的推移而有所改变。在文档信息量还不是如此巨大的时代,人们还是比较关 心检索文档的召回率,希望能够找到的信息越多越好。但是随着信息的爆炸式增长,信息量 已经不是问题,而相反地,如何能够找到更准确的信息,如何提高系统的鲁棒性,如何进行 高效的文档压缩,如何提取出文档中最丰富最有效的信息,如何进行特征降维等问题开始受 * 基金项目:得到国家重点基础研究(973 )(2004CB318108)、自然科学基金)和教 育部科学技术研究重点项目(批准号:104236)资助。 到关注,一些相关理论也得到了稳定的发展,例如潜在语义索引(Latent Semantic Index) 从八十年代被提出,到九十年代开始有一些进展,而进入最近十年之后,则几乎每年都会报 告出新的进展。再例如近几年来,高精度检索,高鲁棒性检索,对用户查询的分析与预分类 等问题也都开始成为研究的热点。 而信息检索模型的发展则经历了三个不同阶段: 首先是以文档的向量表示、以及 TFIDF 等为代表的经典信息检索模型的提出,并在整个 八十年代里始终是人们研究的重点;从八十年代末开始,概率模型(特别是以 Okapi 系统为 代表的 BM25 系列算法)出现并逐渐分享了经典模型在信息检索模型领域的地位,成为新兴 的且功能强大表现越来越出色的模型;到九十年代末期,在自然语言处理、语音识别领域已 经受到广泛应用的语言模型开始被应用于信息检索(确切地说,应该是以 1998 年有两篇关 于语言模型的论文同时在 SIGIR

文档评论(0)

1亿VIP精品文档

相关文档