信息检索复习重点.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索课程复习重点内容 一、综述章节: 1、信息检索的定义和意义。 定义:从非结构化的文档集中找出与用户需求相关的信息。 意义:  大多数信息都是文本形式的,没有预先定义的格式;  在非结构化信息中,包括文本信息和多媒体信 息,但是文本信息最简洁,最抽象, 是人类记 载知识的最主要的工具;  传统管理软件需要嵌入IR 技术;  互联网数据的增长和在线文档(如联机 用户手册等)的增长,向IR 技术提出迫 切 需求。 2 、IR 系统的体系结构和组件。 体系结构: 组件:  文本处理形成索引词:删除停用词、提取词干(Stemming);  建索引:为文档建立倒排索引表;  搜索:根据倒排索引表检索出与提问相关的文档;  排序:将检索出的文档根据相关性排序;  用户界面:管理和用户的交互过程 (包括提问输入和文档输出、相关反馈、结果的 可视化);  提问操作:对提问进行变换,以改进检索结果 (根据同义词词典(thesaurus)对提问 进行扩展、利用相关反馈对提问进行变换)。 3、信息检索质量的评价方式:准确率和召回率的定义和计算方法。 偶然事件表: 属于此类 不属于此类 判定属于此类 a b 判定不属于此类 c d  准确率(precision) = a / (a + b)  召回率(recall) = a / (a + c) 4 、例举信息检索的应用若干。 数字图书馆、内容安全、商务智能、电子政务、远程教育、移动计算、军事情报、电子 商务等。 二、信息检索模型: 1、信息检索模型的表示。 四元组[, Q, F, R( , )]  D :文档集的机内表示  Q :用户需求的机内表示  F :文档表示、查询表示和它们之间的关系的模型框 架(Frame)  R( , ) :给query q 和document d 评分 i j 2 、信息检索模型的分类。 布尔模型、向量空间模型、概率模型、知识模型。 3、布尔模型的优缺点。 优点:  查询简单,容易理解  通过使用复杂的布尔表达式,可以很方便地控制查询结果 缺点:  不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回  非常刚性: “与”意味着全部; “或”意味着任何一个  很难表示用户复杂的需求  很难控制被检索的文档数量  很难对输出进行排序  很难进行自动的相关反馈 4 、向量空间模型是基于什么来表达的? 基于关键词 5、向量空间模型中两种常用的相似度比较算法:内积与余弦相似度的计算方法。  内积 (文档向量与查询向量的内积):文档D 和查询Q 可以通过内急进行计算: t ( ) ( ) sim D , Q = ∑ d ⋅ q i ik k k=1 d 是文档d 中的此项k 的权重,q 是查询Q中此项k 的权重。 ik i k  余弦相似度 (计算文档向量与查询向量的夹角的余弦): ∑ ( ⋅ )

文档评论(0)

sdfgrt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档