从SIGIR看信息检索技术的.pptVIP

下载本文档

2
0
约 28页
2017-08-17 发布于贵州
举报
版权申诉

从SIGIR看信息检索技术的.ppt

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从SIGIR看信息检索技术的过去与未来马少平，张敏清华大学计算机系；智能技术与系统国家重点实验室 2007年3月10日，海口缘起过去三十五年中，我们在信息检索的路上走了多远？在IR舞台上，什么是长盛不衰的？哪些已经渐渐谢幕？哪些即将登场？ SIGIR 1971～2006年所有正式论文主要内容检索模型的发展关键技术检索任务的演变人机交互与用户分析信息检索的评价信息检索中的自然语言处理更多思考与讨论检索模型的发展信息检索模型从一开始就沿两条路发展来源于结构化数据处理的灵感 E.g. 数据库直接从自由文本处理的角度 IR models 自由文本模型——三个阶段向量空间模型 ——80年代初的重点概率模型－－ 80年代末兴起，90年代逐渐成为主流基于语言模型的检索－－ 1998年，里程碑更多模型－－近两三年开始，标志IR进入新的阶段关键技术关键技术实现早期倒排索引的提出与研究 2000后大规模检索最近垃圾 … 走出实验室面向海量数据、实时处理、真实网络环境… 关键技术相关反馈经久不衰的话题 3个阶段早期建立反馈机制 90年代中 CBIR 最近区分不同主题区分不同词关键技术集中式不能满足要求分布式系统架构 3个阶段早期：通用系统设计 90年代中分布式大规模扩展性、效率最近自适应系统系统融合检索任务的演变检索任务 Web IR 80年代末期 Webpage Web与传统文本相区别的特性 1998年开始 Page, Kleinberg 链接分析把Web作为完整的拓扑结构 2000年后更宏观——站点级更微观——Block级检索任务多媒体检索很早被提出语义鸿沟问题图像检索实验室结果利用文本信息最近5年视频音乐 … 检索任务多语言检索 TREC 日语汉语阿拉伯语 NTCIR 亚洲多语言英文主要技术自然语言处理技术词语翻译技术检索任务由国际标准评测提出，有效推动了信息检索研究的发展 TDT TREC Novelty HARD Genomics Blog Legal … 人机交互与用户分析人机交互与用户分析人们始终青睐有加的研究领域早期：可视化表示（查询、文档的可视化）自然语言交互界面 2002年以后：用户日志分析，Social Network，快速学习能力信息检索的评价检索的评价 TREC Pooling技术更紧接本质的评价技术评价与技术的共同发展信息检索中的自然语言处理 NLP and IR 最早被提出的问题之一 Stemming, 分词，词典使用，词义消歧，命名实体… 近年来：更深层次的使用句子完整性重构（更自然的语言表达） 2005年，将NLP信息融合到检索的语言模型中更多思考与讨论 IR 的发展来源之一：实际应用分布式系统系统设计与实现的可扩展性、鲁棒性 Web IR, 链接分析用户分析：搜索日志分析 IR 的发展来源之二：国际标准评测跨语言检索信息检索的评价与测试集的构建话题检测与跟踪新信息发现 IR 的发展来源之三：二者共同推动 QA 检索模型发展 Spam Intranet信息检索 Blog检索与情感分析 … 总结缘起信息检索模型关键技术的发展检索任务的演化人机交互/用户分析检索的评价信息检索与自然语言处理其他思考—— 关于IR的发展谢谢！而信息检索模型的发展则经历了三个不同阶段：首先是以文档的向量表示、以及TFIDF等为代表的经典信息检索模型的提出，并在整个八十年代里始终是人们研究的重点；从八十年代末开始，概率模型（特别是以Okapi系统为代表的BM25系列算法）出现并逐渐分享了经典模型在信息检索模型领域的地位，成为新兴的且功能强大表现越来越出色的模型；到九十年代末期，在自然语言处理、语音识别领域已经受到广泛应用的语言模型开始被应用于信息检索（确切地说，应该是以1998年有两篇关于语言模型的论文同时在SIGIR上发表为里程碑），打破了数十年来在检索模型上没有大的变革的局面，从此，概率模型和语言模型成为信息检索研究领域最常用的两种方法，受到其影响，传统的检索模型逐渐受到冷落。在整个期间内，布尔模型以及扩展布尔模型也时有研究出现，但是始终没有形成与其他三种模型一样的广泛而持续的影响。从近两三年开始，新的局面又悄悄出现了：在模型和理论研究上，人们的注意力开始向这已有的三种主流模型以外开始扩展，逐渐提出了更多的新的框架、理论和方法，也开始探索信息检索模型的本质。我们认为，从这时开始，信息检索已经进入了一个新的阶段，并可以期待能够有更具突破性的进展。倒排索引(inver