第8讲 信息检索与利用.pptVIP

  1. 1、本文档共154页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8讲 信息检索与利用.ppt

提要 第一节 信息检索概述 内容提纲 信息检索的基本概念 常用的信息检索技术 信息检索的基本流程 信息检索的历史 信息检索和其他学科的关系 内容提纲 信息检索的基本概念 常用的信息检索技术 信息检索的基本流程 信息检索的历史 信息检索和其他学科的关系 信息检索(Information Retrieval) Information Retrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问。 文档(Document):检索的对象。 ◆ 可以是文本,也可以是图像、视频、语音等多媒体文档,text retrieval/image retrieval/video retrieval/speech retrieval/multimedia retrieval ◆ 可以是无格式、半格式、有格式的 文档集合(Collection):所有待检索的文档构成的集合。 ◆ 也称为Repository,Corpus 例1:返回与信息检索相关的网页??搜索引擎(Search Engine, SE) 例2:毛主席的生日是哪天???问答系统(Question Answering, QA) 例3:返回联想PC的型号、配置、价格等信息??信息抽取(Information Extraction, IE) 例4:订阅有关NBA的新闻??信息过滤(Information Filtering)、信息推荐(Information Recommending) IR的两种模式: ??Pull: 用户是主动的发起请求,在一个相对稳定的数据集合上进行查询。 ??Push (filtering) :用户事先定义自己的兴趣,系统在不断到来的流动数据上进行操作,将满足用户兴趣的数据推送给用户。 相关relevant、相关度relevance 内容提纲 信息检索的基本概念 常用的信息检索技术 信息检索的基本流程 信息检索的历史 信息检索和其他学科的关系 常用的信息检索技术 布尔检索 加权检索 全文检索 超文本检索 多媒体检索 智能检索 跨语言检索 跨平台检索(分布式检索) 常用的信息检索技术 布尔检索 加权检索 全文检索 超文本检索 多媒体检索 智能检索 跨语言检索 跨平台检索(分布式检索) 布尔检索 布尔检索采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索。布尔逻辑表达式是通过布尔运算符(逻辑与“and”、逻辑或”or”、逻辑非“not”等)来连接检索词,以及表示运算优先级的括号组成的一种表达检索要求的一种算式。 布尔检索表达式的特点 与人们的思维习惯一致 表现直观清晰、结构化强、语义表达好 方便扩检和缩检 易于计算机实现 布尔检索表达式的缺点: 没有反映文献内容(或信息需求)所涉及的多个概念的相对重要性,一个概念或者与文献内容(或信息需求)完全吻合相关,或者全然不相关,这是与实际情况有一定距离的。 没有反映概念之间内在的语义联系。 常用的信息检索技术 布尔检索 加权检索 全文检索 超文本检索 多媒体检索 智能检索 跨语言检索 跨平台检索(分布式检索) 加权检索 根据用户的检索需求来确定检索词,并根据每个词在检索要求中的重要程度,分别给予一定的数值(权值)加以区别,同时利用给出的检索命中界限值(阈值,threshold )限定检索结果的输出。 加权检索 检索词赋权检索 词频加权检索 ◆ 简单词频加权检索 ◆ 相对词频加权检索 加权标引检索 加权检索 检索词赋权检索 词频加权检索 ◆ 简单词频加权检索 ◆ 相对词频加权检索 加权标引检索 1、检索词赋权检索 (term weighing retrieval) 在检索式的构造过程中,检索者根据对用户检索需求的理解,为需求选定检索词,同时每一个检索词(概念)给定一个数值(权重)表示其针对本次检索的重要程度。检索时先判断检索词在文献记录中是否存在,对存在检索词的记录计算其所包含的检索词权值总和,通过与预先给定的阈值比较,权值之和达到或超过阈值的记录视为命中记录,命中结果的输出按权值和从大到小排列输出。这种用给检索词加权来表达信息需求的方式,称为词加权提问逻辑。 查找计算机信息检索自动化方面的文献资料,用检索词赋权检索法列提问式如下: W=信息检索(4)自动化(2)计算机(1) 阈值设定为5 加权检索 检索词赋权检索 词频加权检索 ◆ 简单词频加权检索

文档评论(0)

好文精选 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档