信息检索技术的过去和未来.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索技术的过去和未来

从SIGIR看信息检索技术的过去与未来 缘起 过去三十五年中,我们在信息检索的路上走了多远? 在IR舞台上,什么是长盛不衰的? 哪些已经渐渐谢幕? 哪些即将登场? SIGIR 1971~2006年所有正式论文 主要内容 检索模型的发展 关键技术 检索任务的演变 人机交互与用户分析 信息检索的评价 信息检索中的自然语言处理 更多思考与讨论 检索模型的发展 信息检索模型 从一开始就沿两条路发展 来源于结构化数据处理的灵感 E.g. 数据库 直接从自由文本处理的角度 IR models 自由文本模型——三个阶段 向量空间模型 ——80年代初的重点 概率模型 -- 80年代末兴起,90年代逐渐成为主流 基于语言模型的检索 -- 1998年,里程碑 更多模型 -- 近两三年开始,标志IR进入新的阶段 关键技术 关键技术 实现 早期 倒排索引的提出与研究 2000后 大规模检索 最近 垃圾 … 走出实验室 面向海量数据、实时处理、真实网络环境… 关键技术 相关反馈 经久不衰的话题 3个阶段 早期 建立反馈机制 90年代中 CBIR 最近 区分不同主题 区分不同词 关键技术 集中式不能满足要求 分布式系统架构 3个阶段 早期: 通用系统设计 90年代中 分布式 大规模 扩展性、效率 最近 自适应系统 系统融合 检索任务的演变 检索任务 Web IR 80年代末期 Webpage Web与传统文本相区别的特性 1998年开始 Page, Kleinberg 链接分析 把Web作为完整的拓扑结构 2000年后 更宏观——站点级 更微观——Block级 检索任务 多媒体检索 很早被提出 语义鸿沟问题 图像检索 实验室结果 利用文本信息 最近5年 视频 音乐 … 检索任务 多语言检索 TREC 日语 汉语 阿拉伯语 NTCIR 亚洲多语言 英文 主要技术 自然语言处理技术 词语翻译技术 检索任务 由国际标准评测提出,有效推动了信息检索研究的发展 TDT TREC Novelty HARD Genomics Blog Legal … 人机交互与用户分析 人机交互与用户分析 人们始终青睐有加的研究领域 早期:可视化表示 (查询、文档的可视化) 自然语言交互界面 2002年以后: 用户日志分析,Social Network,快速学习能力 信息检索的评价 检索的评价 TREC Pooling技术 更紧接本质的评价技术 评价与技术的共同发展 信息检索中的 自然语言处理 NLP and IR 最早被提出的问题之一 Stemming, 分词,词典使用,词义消歧,命名实体… 近年来:更深层次的使用 句子完整性重构(更自然的语言表达) 2005年,将NLP信息融合到检索的语言模型中 更多思考与讨论 IR 的发展 来源之一:实际应用 分布式系统 系统设计与实现的可扩展性、鲁棒性 Web IR, 链接分析 用户分析:搜索日志分析 IR 的发展 来源之二:国际标准评测 跨语言检索 信息检索的评价与测试集的构建 话题检测与跟踪 新信息发现 IR 的发展 来源之三:二者共同推动 QA 检索模型发展 Spam Intranet信息检索 Blog检索与情感分析 … 总结 缘起 信息检索模型 关键技术的发展 检索任务的演化 人机交互/用户分析 检索的评价 信息检索与自然语言处理 其他思考—— 关于IR的发展 从最初起,信息检索的系统设计就是沿着两条路来走的:一是借鉴结构化数据处理的基础和知识,借助数据库等已较为成熟的技术来实现文档的全文检索;二是不拘泥于已有的技术思路,而从文档本身的特点出发,设计并实现专门用于信息检索的体系结构。 在开始的十年里,在这两条道路上不同的研究者们都分别进行了充分地尝试,研究并设计出了不同的信息检索体系结构。可以说,这时面向结构化数据的信息检索还占据了相当重要的地位。 但是当我们把目光转入90年代之后,就会发现与结构化数据存储和检索相关的研究在人们的视线中只是偶尔出现了。 直到进入2000年,这条分支似乎又有所复苏 —— 但是事实上,与二十年前相比,人们已经转变了思路,或者说开辟了一条新的道路——基于以xml为代表的半结构化数据的检索。于是,最初形成的两条分支开始呈现出一定程度的融合趋势。 而信息检索模型的发展则经历了三个不同阶段: 首先是以文档的向量表示、以及TFIDF等为代表的经典信息检索模型的提出,并在整个八十年代里始终是人们研究的重点; 从八十年代末开始,概率模型(特别是以Okapi系统为代表的BM25系列算法)出现并逐渐分享了经典模型在信息检索模型领域的地位,成为新兴的且功能强大表现越来越出色的模型; 到九十年代末期,在自然语言处理、语音识别领域已经受到广泛应用的语言模型开始被应用于信息检索(确切地说,应

您可能关注的文档

文档评论(0)

3471161553 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档