信息检索技术的过去和未来.ppt

下载文档 降价啦

7
0
约5.51千字
约 29页
2018-06-14 发布于福建
举报
版权申诉
保障服务

信息检索技术的过去和未来.ppt

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

信息检索技术的过去和未来

从SIGIR看信息检索技术的过去与未来缘起过去三十五年中，我们在信息检索的路上走了多远？在IR舞台上，什么是长盛不衰的？哪些已经渐渐谢幕？哪些即将登场？ SIGIR 1971～2006年所有正式论文主要内容检索模型的发展关键技术检索任务的演变人机交互与用户分析信息检索的评价信息检索中的自然语言处理更多思考与讨论检索模型的发展信息检索模型从一开始就沿两条路发展来源于结构化数据处理的灵感 E.g. 数据库直接从自由文本处理的角度 IR models 自由文本模型——三个阶段向量空间模型 ——80年代初的重点概率模型－－ 80年代末兴起，90年代逐渐成为主流基于语言模型的检索－－ 1998年，里程碑更多模型－－近两三年开始，标志IR进入新的阶段关键技术关键技术实现早期倒排索引的提出与研究 2000后大规模检索最近垃圾 … 走出实验室面向海量数据、实时处理、真实网络环境… 关键技术相关反馈经久不衰的话题 3个阶段早期建立反馈机制 90年代中 CBIR 最近区分不同主题区分不同词关键技术集中式不能满足要求分布式系统架构 3个阶段早期：通用系统设计 90年代中分布式大规模扩展性、效率最近自适应系统系统融合检索任务的演变检索任务 Web IR 80年代末期 Webpage Web与传统文本相区别的特性 1998年开始 Page, Kleinberg 链接分析把Web作为完整的拓扑结构 2000年后更宏观——站点级更微观——Block级检索任务多媒体检索很早被提出语义鸿沟问题图像检索实验室结果利用文本信息最近5年视频音乐 … 检索任务多语言检索 TREC 日语汉语阿拉伯语 NTCIR 亚洲多语言英文主要技术自然语言处理技术词语翻译技术检索任务由国际标准评测提出，有效推动了信息检索研究的发展 TDT TREC Novelty HARD Genomics Blog Legal … 人机交互与用户分析人机交互与用户分析人们始终青睐有加的研究领域早期：可视化表示（查询、文档的可视化）自然语言交互界面 2002年以后：用户日志分析，Social Network，快速学习能力信息检索的评价检索的评价 TREC Pooling技术更紧接本质的评价技术评价与技术的共同发展信息检索中的自然语言处理 NLP and IR 最早被提出的问题之一 Stemming, 分词，词典使用，词义消歧，命名实体… 近年来：更深层次的使用句子完整性重构（更自然的语言表达） 2005年，将NLP信息融合到检索的语言模型中更多思考与讨论 IR 的发展来源之一：实际应用分布式系统系统设计与实现的可扩展性、鲁棒性 Web IR, 链接分析用户分析：搜索日志分析 IR 的发展来源之二：国际标准评测跨语言检索信息检索的评价与测试集的构建话题检测与跟踪新信息发现 IR 的发展来源之三：二者共同推动 QA 检索模型发展 Spam Intranet信息检索 Blog检索与情感分析 … 总结缘起信息检索模型关键技术的发展检索任务的演化人机交互/用户分析检索的评价信息检索与自然语言处理其他思考—— 关于IR的发展从最初起，信息检索的系统设计就是沿着两条路来走的：一是借鉴结构化数据处理的基础和知识，借助数据库等已较为成熟的技术来实现文档的全文检索；二是不拘泥于已有的技术思路，而从文档本身的特点出发，设计并实现专门用于信息检索的体系结构。在开始的十年里，在这两条道路上不同的研究者们都分别进行了充分地尝试，研究并设计出了不同的信息检索体系结构。可以说，这时面向结构化数据的信息检索还占据了相当重要的地位。但是当我们把目光转入90年代之后，就会发现与结构化数据存储和检索相关的研究在人们的视线中只是偶尔出现了。直到进入2000年，这条分支似乎又有所复苏 —— 但是事实上，与二十年前相比，人们已经转变了思路，或者说开辟了一条新的道路——基于以xml为代表的半结构化数据的检索。于是，最初形成的两条分支开始呈现出一定程度的融合趋势。而信息检索模型的发展则经历了三个不同阶段：首先是以文档的向量表示、以及TFIDF等为代表的经典信息检索模型的提出，并在整个八十年代里始终是人们研究的重点；从八十年代末开始，概率模型（特别是以Okapi系统为代表的BM25系列算法）出现并逐渐分享了经典模型在信息检索模型领域的地位，成为新兴的且功能强大表现越来越出色的模型；到九十年代末期，在自然语言处理、语音识别领域已经受到广泛应用的语言模型开始被应用于信息检索（确切地说，应