- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从SIGIR看信息检索技术的过去与未来 马少平,张敏 清华大学计算机系; 智能技术与系统国家重点实验室 2007年3月10日,海口 缘起 过去三十五年中,我们在信息检索的路上走了多远? 在IR舞台上,什么是长盛不衰的? 哪些已经渐渐谢幕? 哪些即将登场? SIGIR 1971~2006年所有正式论文 主要内容 检索模型的发展 关键技术 检索任务的演变 人机交互与用户分析 信息检索的评价 信息检索中的自然语言处理 更多思考与讨论 检索模型的发展 信息检索模型 从一开始就沿两条路发展 来源于结构化数据处理的灵感 E.g. 数据库 直接从自由文本处理的角度 IR models 自由文本模型——三个阶段 向量空间模型 ——80年代初的重点 概率模型 -- 80年代末兴起,90年代逐渐成为主流 基于语言模型的检索 -- 1998年,里程碑 更多模型 -- 近两三年开始,标志IR进入新的阶段 关键技术 关键技术 实现 早期 倒排索引的提出与研究 2000后 大规模检索 最近 垃圾 … 走出实验室 面向海量数据、实时处理、真实网络环境… 关键技术 相关反馈 经久不衰的话题 3个阶段 早期 建立反馈机制 90年代中 CBIR 最近 区分不同主题 区分不同词 关键技术 集中式不能满足要求 分布式系统架构 3个阶段 早期: 通用系统设计 90年代中 分布式 大规模 扩展性、效率 最近 自适应系统 系统融合 检索任务的演变 检索任务 Web IR 80年代末期 Webpage Web与传统文本相区别的特性 1998年开始 Page, Kleinberg 链接分析 把Web作为完整的拓扑结构 2000年后 更宏观——站点级 更微观——Block级 检索任务 多媒体检索 很早被提出 语义鸿沟问题 图像检索 实验室结果 利用文本信息 最近5年 视频 音乐 … 检索任务 多语言检索 TREC 日语 汉语 阿拉伯语 NTCIR 亚洲多语言 英文 主要技术 自然语言处理技术 词语翻译技术 检索任务 由国际标准评测提出,有效推动了信息检索研究的发展 TDT TREC Novelty HARD Genomics Blog Legal … 人机交互与用户分析 人机交互与用户分析 人们始终青睐有加的研究领域 早期:可视化表示 (查询、文档的可视化) 自然语言交互界面 2002年以后: 用户日志分析,Social Network,快速学习能力 信息检索的评价 检索的评价 TREC Pooling技术 更紧接本质的评价技术 评价与技术的共同发展 信息检索中的自然语言处理 NLP and IR 最早被提出的问题之一 Stemming, 分词,词典使用,词义消歧,命名实体… 近年来:更深层次的使用 句子完整性重构(更自然的语言表达) 2005年,将NLP信息融合到检索的语言模型中 更多思考与讨论 IR 的发展 来源之一:实际应用 分布式系统 系统设计与实现的可扩展性、鲁棒性 Web IR, 链接分析 用户分析:搜索日志分析 IR 的发展 来源之二:国际标准评测 跨语言检索 信息检索的评价与测试集的构建 话题检测与跟踪 新信息发现 IR 的发展 来源之三:二者共同推动 QA 检索模型发展 Spam Intranet信息检索 Blog检索与情感分析 … 总结 缘起 信息检索模型 关键技术的发展 检索任务的演化 人机交互/用户分析 检索的评价 信息检索与自然语言处理 其他思考—— 关于IR的发展 谢谢! 而信息检索模型的发展则经历了三个不同阶段: 首先是以文档的向量表示、以及TFIDF等为代表的经典信息检索模型的提出,并在整个八十年代里始终是人们研究的重点; 从八十年代末开始,概率模型(特别是以Okapi系统为代表的BM25系列算法)出现并逐渐分享了经典模型在信息检索模型领域的地位,成为新兴的且功能强大表现越来越出色的模型; 到九十年代末期,在自然语言处理、语音识别领域已经受到广泛应用的语言模型开始被应用于信息检索(确切地说,应该是以1998年有两篇关于语言模型的论文同时在SIGIR上发表为里程碑),打破了数十年来在检索模型上没有大的变革的局面,从此,概率模型和语言模型成为信息检索研究领域最常用的两种方法,受到其影响,传统的检索模型逐渐受到冷落。在整个期间内,布尔模型以及扩展布尔模型也时有研究出现,但是始终没有形成与其他三种模型一样的广泛而持续的影响。 从近两三年开始,新的局面又悄悄出现了:在模型和理论研究上,人们的注意力开始向这已有的三种主流模型以外开始扩展,逐渐提出了更多的新的框架、理论和方法,也开始探索信息检索模型的本质。我们认为,从这时开始,信息检索已经进入了一个新的阶段,并可以期待能够有更具突破性的进展。 倒排索引(inver
文档评论(0)