第1章 信息检索的相关概念课件.pptVIP

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索的基本概念—相关度(续) * 信息检索的基本概念—相关度(续) 形式上说,信息检索中的相关度是一个函数R,输入是查询Q、文档D和文档集合C,返回的是一个实数值R=f(Q,D,C) 信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关度并排序(Ranking)。 相关度通常只有相对意义,对一个Q,不同文档的相关度可以比较,而对于不同的Q的相关度不便比较 相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等等 现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖度等度量。或者说这些因子都影响Google中据说用了上百种排名因子 * 信息检索的基本概念--信息检索和数据库检索 * 近年来,随着XML的出现,两种检索已经逐渐融合,边界越来越不明显。 信息检索课程介绍 本文将主要介绍面向文本对象的检索,即文本检索(text retrieval)。 文本是人们表达知识(论文)、交流(口语)的最常用的形式。 文本可以用于描述其他媒体。 其他媒体形式的检索的方法往往借鉴自文本检索。 信息检索的两种研究方式: 以计算机为中心:IR的工作主要是建立索引、对用户查询进行处理、排序算法等等 以用户为中心:IR的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织 本课程主要研究以计算机为中心的IR问题,目前是主流 * 提纲 信息检索的基本概念 信息检索的历史 信息检索和其他学科的关系 信息检索的基本流程 * 历史分段 计算机出现以前 计算机出现以后 Internet出现以后 * IR历史--计算机出现以前 计算机出现以前: 约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。 随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。 计算机问世以前,人们主要通过手工方式来建立索引。 * IR历史--计算机出现以后 1948: C. N. Mooers 在其MIT的硕士论文中第一次创造了“Information Retrieval”这个术语。 1960-70年代: 人们开始使用计算机为一些小规模科技和商业文献的摘要建立文本检索系统。 产生了布尔模型(Boolean Model)、向量空间模型(Vector SpaceModel)和概率检索模型(Probabilistic Model)。 康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者。 伦敦城市大学的Robertson及剑桥大学的Sparck Jones是概率模型的倡导者。 * IR历史--计算机出现以后(续) 1980年代: 出现了一些商用的较大规模数据库检索系统 Lexis-Nexis Dialog MEDLINE * IR历史--INTERNET出现以后 1986:Internet正式形成 1990’s: 第一个网络搜索工具:1990年加拿大蒙特利尔大学 开发的FTP搜索工具Archie 第一个WEB搜索引擎:1994年美国CMU开发的 Lycos 1995:斯坦福大学博士生开发的Yahoo 1998:斯坦福大学博士生开发的Google,提出 PageRank计算公式。 1998:基于语言模型的IR模型提出。 * IR历史--INTERNET出现以后(续1) 1990年代的其他重要事件: 评测会议 NIST TREC 推荐系统的出现 Ringo Amazon NetPerceptions 文本分类和聚类的使用 * IR历史--INTERNET出现以后(续2) 2000’s 信息抽取 Whizbang Fetch Burning Glass 问答系统 TREC Q/A track 2001年,百度成立 * IR历史--INTERNET出现以后(续3) 2000以来的其他重要事件: 多媒体 IR Image Video Audio and music 跨语言 IR DARPA Tides 文本摘要 DUC评测 * 提纲 信息检索的基本概念 信息检索的历史 信息检索和其他学科的关系 信息检索的基本流程 * 相关研究领域 图书情报学(Library Info. Science) 数据库管理(Database Management) 人工智能(Artificial Intelligence) 自然语言处理(Natural Language Processing) 机器学习(Machine Learning) * 图书情报学(LIBRARY AND INFORMATION SCIENCE, LIS) IR最初起源于LIS LIS主要关注IR中的用户方(人机交互、用户界面、可视化) LIS关注人类只是的高效分类 LIS关注文献的引用分析(citation ana

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档