信息检索研究：过去三十年中我们走了多远 - 清华大学智能技术与系统 .pdfVIP

下载本文档

4
0
约2.09万字
约 7页
2017-09-03 发布于天津
举报

信息检索研究：过去三十年中我们走了多远 - 清华大学智能技术与系统 .pdf

信息检索研究：过去三十年中我们走了多远 - 清华大学智能技术与系统

信息检索研究：过去三十年中我们走了多远* 马少平，张敏 {msp,z-m}@ （清华大学计算机科学与技术系北京 100084）摘要：本文以对信息检索领域最顶级的国际会议 SIGIR 三十年来论文主题的分析为切入点，结合近来年对相关领域的研究和实践，对信息检索研究的发展变化历程和趋势进行总结和分析。关键词：信息检索，SIGIR 回顾现代信息检索方法与技术发展，从 1971 年第一次信息检索相关的国际会议 SIGIR 的召开到现在，已经经历了超过三十个年头的历程。在这过去的三十年里，人们从最初开始探讨什么是信息检索，尝试设计信息检索系统的基本体系架构，研究应该如何高效地存储文档，如何判断文档与用户查询的相似性等最基本的问题开始，到在互联网上帮助人们进行信息查找的搜索引擎的出现并得到广泛应用，再到后来更多更高级更深层次的技术的提出，直到今天，人们开始感慨“搜索无处不在”，开始讨论什么是“下一代搜索引擎”。三十年的时间里，我们都做了些什么？有哪些问题是研究者们所一直关注着的问题？又有哪些问题经过历史的发展已经渐渐被人们遗忘和冷落？有哪些是随着社会和技术的进步所提出的新的课题？在这里，我们在近年来对信息检索的研究和实践的基础上，以分析信息检索领域最顶级的国际会议 SIGIR 在这三十年中所收录的论文及其主题的发展变化为切入点，尝试由此映射出整个信息检索领域相关研究发展变化的历程和趋势，一起回顾和总结一下在信息检索研究的道路上，我们已经走了多远？我们还有多远的路要走？一、信息检索模型的发展与变革进行信息检索方法研究需要解决的第一个问题就是检索模型和结构。从最初起，信息检索的系统设计就是沿着两条路来走的：一是借鉴结构化数据处理的基础和知识，借助数据库等已较为成熟的技术来实现文档的全文检索；二是不拘泥于已有的技术思路，而从文档本身的特点出发，设计并实现专门用于信息检索的体系结构。在开始的十年里，在这两条道路上不同的研究者们都分别进行了充分地尝试，研究并设计出了不同的信息检索体系结构。可以说，这时面向结构化数据的信息检索还占据了相当重要的地位。但是当我们把目光转入 90 年代之后，就会发现与结构化数据存储和检索相关的研究在人们的视线中只是偶尔出现了。直到进入 2000 年，这条分支似乎又有所复苏 —— 但是事实上，与二十年前相比，人们已经转变了思路，或者说开辟了一条新的道路——基于以 xml 为代表的半结构化数据的检索。于是，最初形成的两条分支开始呈现出一定程度的融合趋势。在信息检索的一般方法和理论层面，研究者们的努力从来都没有停懈过，只是研究的关注点会随着时间的推移而有所改变。在文档信息量还不是如此巨大的时代，人们还是比较关心检索文档的召回率，希望能够找到的信息越多越好。但是随着信息的爆炸式增长，信息量已经不是问题，而相反地，如何能够找到更准确的信息，如何提高系统的鲁棒性，如何进行高效的文档压缩，如何提取出文档中最丰富最有效的信息，如何进行特征降维等问题开始受 * 基金项目：得到国家重点基础研究（973 ）(2004CB318108)、自然科学基金）和教育部科学技术研究重点项目（批准号：104236）资助。到关注，一些相关理论也得到了稳定的发展，例如潜在语义索引（Latent Semantic Index）从八十年代被提出，到九十年代开始有一些进展，而进入最近十年之后，则几乎每年都会报告出新的进展。再例如近几年来，高精度检索，高鲁棒性检索，对用户查询的分析与预分类等问题也都开始成为研究的热点。而信息检索模型的发展则经历了三个不同阶段：首先是以文档的向量表示、以及 TFIDF 等为代表的经典信息检索模型的提出，并在整个八十年代里始终是人们研究的重点；从八十年代末开始，概率模型（特别是以 Okapi 系统为代表的 BM25 系列算法）出现并逐渐分享了经典模型在信息检索模型领域的地位，成为新兴的且功能强大表现越来越出色的模型；到九十年代末期，在自然语言处理、语音识别领域已经受到广泛应用的语言模型开始被应用于信息检索（确切地说，应该是以 1998 年有两篇关于语言模型的论文同时在 SIGIR

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息检索研究：过去三十年中我们走了多远 - 清华大学智能技术与系统 .pdfVIP