情报检索系统中信息组织.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
情报检索系统中的 信息组织 目标 情报检索定义:信息单元的表示、存储、组织和存取 旨在满足用户的信息需求 用户的信息需求例如: 找到关于姚明在休斯敦火箭队的所有文献,包含 (1) 他与其他几位中国球员的交往 或(2) 他与女友的交往; 重点在查找相关信息,而不是数据 简介 情报检索系统采用索引词处理提问(匹配) 索引词: 关键词或者规范词 任意词 用到切分或截词: connect: connecting, connection, connections 倒排档用于查检操作 数字图书馆中的情报检索 一般认为数字图书馆是: 数字对象的集合所构成的资源库; 描述这些数字对象的元数据库; 实用这些数字对象的目标用户; 提供各种服务(捕捉、标引、编目、查询、浏览、检索、传递、存档、长期保存等)的系统 数字图书馆与情报检索 情报检索对于数字图书馆是至关重要的,可以使数字图书馆更为高效而且易于使用 情报检索同时是数字图书馆的一个很重要的研究领域和核心技术之一 * 数据检索Data Retrieval 文献包含的关键词是数据 含义固定 一点小错误会造成查找失败 情报检索Information retrieval 关于一个主题或话题的信息 含义常常比较宽松,有一定范围 允许一些错误,不影响查到相关内容 情报检索系统IR system: 对信息对象内容的解释 排序反映了相关性 相关性是最重要的概念 情报检索时代的来临 情报检索已不是图书情报领域关心的课题,随着万维网的来临,一跃成为受人关注的关键技术之一。 基本模型 用户目标 检索 信息或数据 有目的地 浏览 随意冲浪 F1; cars, Le Mans, France, tourism Retrieval Browsing Database 基本概念 文件的逻辑视图 数字化文本可以用全文进行索引,而不必只取“关键词”或“分类号” 结构 分词 禁用词 名词 词组 词干/同义词 人工标引 文件 结构提取 全文 索引词 用户界面 文本操作 提问式操作 标引 检索 排序 索引 文本 提问 用户需求 用户反馈 经过排序文件 获取文件 逻辑视图 逻辑视图 倒排档 数据库管理模块 4, 10 6, 7 5 8 2 8 文本数据库 文本 情报检索流程 Introduction 文件 信息需求 索引词 文件 提问 排序 匹配 简介 排序是检出文献对于用户提问的相关程度的顺序 以下原因造成问题: 索引词的匹配不太精确 用户常常会不满足 由于用户没有经过提问式编写的培训,检索效果会更糟 Web上的情报检索更是如此 相关性的测度成为匹配与排序的关键问题 情报检索模型 非重叠列表 最近节点 结构化模型 检索: 实际上是信息过滤 浏览 用户目的 传统模型 布尔模型 矢量模型 概率模型 集合论 模糊理论 扩展的布尔逻辑 概率论 推理网络 信任网络 代数论 普通矢量 语义索引 神经网络 浏览 平面结构 结构指南 超文本 情报检索模型 情报检索模型, 文件的逻辑视图, 以及检索任务是情报检索的三个不同方面 经典模型 – 基本概念 每篇文献用关键词或索引词来代表 索引词是特定文献中有意义的或代表文献主题的词 通常索引词为名词,因为只有名词自身才有意义 然而搜索引擎将所有词都进行索引,成为全文索引 但是并不是所有词对于特定文献都具有相等的代表性:低频词更能区分文献(具有更小的命中文献集合) 索引词的重要性由赋予它的权重决定 如 ki 为一索引词 dj 为一文献 wij 为 (ki,dj)的权重 权重 wij 代表了索引词ki在文献dj中的重要性 经典模型 – 基本概念 ki 为一索引词 dj 为一文献 t 是检索系统中文献的总数 K = (k1, k2, …, kt) 索引词集合 wij = 0 是与 (ki,dj)相关的权重 wij = 0 表示该词不在某篇文献dj中 vec(dj) = (w1j, w2j, …, wtj) 是关于文献dj的权重矢量 gi(vec(dj)) = wij is 是返回关于(ki,dj) 权重的函数 经典模型 – 基本概念

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档