计算语言学讲义(11上)信息检索入门(王斌).pdf

计算语言学讲义(11上)信息检索入门(王斌).pdf

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算语言学讲义(11上)信息检索入门(王斌)

信息检索入门 Introduction to Information Retrieval 中国科学院计算技术研究所 王斌骆卫华 2006.5 内容 信息检索的基本概念 信息检索的基本流程 信息检索的评价方法 信息采集 信息分析及索引 信息检索模型及其他相似度计算方法 查询扩展及相关反馈 内容 信息检索的基本概念 信息检索的基本流程 信息检索的评价方法 信息采集 信息分析及索引 信息检索模型及其他相似度计算方法 查询扩展及相关反馈 查询 相关的结果 信息检索 Information Retrieval(IR):从文档集合中返回满足用 户需求的信息 例1:返回与信息检索相关的网页搜索引擎(Search Engine, SE) 例2:毛主席的生日是哪天?问答系统(Question Answering, QA) 例3:返回联想PC的型号、配置、价格等信息信息抽取 (Information Extraction, IE) 例4 :订阅有关NBA的新闻信息过滤(Information Filtering)、信息推荐(Information Recommending) 狭义的IR通常是指Information Search,广义的IR包含 非常多的内容(SE, QA, IE, …) 信息检索和数据库检索 信息检索 数据库检索 检索对 无结构、半结构数据 结构化数据 象 如网页、图片…… 如:员工数据库 检索方 通常是近似检索 通常是精确检索 式 如:每个结果有相关度 如:姓名==“李 得分 明” 检索语 主要是自然语言 SQL结构化语言 言 如:查与超女相关的新 闻 近年来,两种检索已经逐渐融合,边界越来越不明显。 信息检索的基本概念 用户需求(Information Need,IN) 严格地说,IN存在于用户的内心,但是通常用文字来描述, 如查找与2006世界杯相关的新闻,通常也称为主题(Topic) IN提交给检索系统时称为查询(Query),如2006 世界杯,一 个IN可以对应多个Query 文档(Document) 可以是文本、图像、视频、语音文件等 文档集合(Collection) 所有待检索的文档构成的集合 相关度(Relevance) 相关度目前也没有统一的定义,简单地认为是查询和文档的匹配相似度 得分 形式上说,相关度是一个函数R,输入是查询Q、文档D和文档集合C,返 回的是一个实数值 R=f(Q,D,C) 信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关 度并排序(Ranking)。 相关度通常只有相对意义,对一个Q,不同文档的相关度可以比较,而 对于不同的Q的相关度不便比较 相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等 等 现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖 度等度量。 Google中据说用了上百种排名因子 内容 信息检索的基本概念 信息检索的基本

文档评论(0)

牛X文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档