情报检索系统中的信息组织课件.pptxVIP

  • 2
  • 0
  • 约2.16千字
  • 约 17页
  • 2023-11-07 发布于江苏
  • 举报
情报检索系统中的 信息组织 1 目标 ·情报检索定义:信息单元的表示、存储、组 织和存取 ·旨在满足用户的信息需求 ·用户的信息需求例如: 一 找到关于姚明在休斯敦火箭队的所有文献,包含(1)他与其 他几位中国球员的交往或(2) 他与女友的交往; ·重点在查找相关信息,而不是数据 2 ·数据检索Data Retrieval -文献包含的关键词是数据 - 含义固定 一一点小错误会造成查找失败 ·情报检索Information retrieval 一关于一个主题或话题的信息 -含义常常比较宽松,有一定范围 一允许一些错误,不影响查到相关内容 ·情报检索系统IR system: 一对信息对象内容的解释 一排序反映了相关性 一相关性是最重要的概念 3 ·情报检索时代的来临 一情报检索已不是图书情报领域关心的课题, 随着万维网的来临, 一跃成为受人关注的 关键技术之一。 4 一检索 ·信息或数据 ·有目的地 一浏览 ·随意冲浪 ·F 1;cars,Le Mans,France,tourism 基本模型 · 用户目标 Retrieval Database Browsing 5 基本概念 ·文件的逻辑视图 文件 分词 禁用词 结构 结构提取 全文 ·数字化文本可以用全文进行索引,而不 必只取“关键词”或“分类号” 词干/同义词十 人工标引 名词 词组 索引词 6 文本操作 6,7 逻辑视图 标引 8 倒排档 逻辑视图 提问式操作 5 提问 检索 8 排序 2 用户界面 用户需求 情报检索流程 文本数据 库 数据库管理模块 经过排序文件 获取文件 用户反馈 索引 文本 文本 4,10 7 简介 · 情报检索系统采用索引词处理提问(匹配) · 索引词: -关键词或者规范词 一任意词 ·用到切分或截词: 一 connect:connecting,connection,connections ·倒排档用于查检操作 8 文件 匹配 排序 Introduction 信息需求 索引词 文件 提问 9 简介 ·排序是检出文献对于用户提问的相关程度的顺序 · 以 下 原 因 造 成 问 题 : -索引词的匹配不太精确 一用户常常会不满足 一由于用户没有经过提问式编写的培训,检索效 果会更糟 -Web 上的情报检索更是如此 一相关性的测度成为匹配与排序的关键问题 10 集合论 模糊理论 扩展的布尔逻辑 代数论 普通矢量 语义索引 神经网络 概率论 推理网络 信任网络 情报检索模型 浏览 平面结构 结构指南 超文本 检索: 实际上是 信息过滤 传统模型 布尔模型 矢量模型 概率模型 结构化模型 非重叠列表 最近节点 用户目的 浏 览 11 Index Terms Full Text Full Text+ Structure Retrieval Classic Set Theoretic Algebraic Probabilistic Classic Set Theoretic Algebraic Probabilistic Structured Browsing Flat Flat Hypertext Structure Guid Hypertext 情报检索模型 ·情报检索模型,文件的逻辑视图,以及检索任务是情 报检索的三个不同方面 LOGICAL VIEW OF DOCUMENTS S E R T K 12 经典模型-基本概念 · 每篇文献用关键词或索引词来代表 · 索引词是特定文献中有意义的或代表文献主题的词 · 通常索引词为名词,因为只有名词自身才有意义 · 然而搜索引擎将所有词都进行索引,成为全文索引 13 经典模型-基本概念 ·但是并不是所有词对于特定文献都具有相等的代表 性:低频词更能区分文献(具有更小的命中文献集 合) ·索引词的重要性由赋予它的权重决定 · 如 -k i 为一索引词 -dj 为一文献 -wj 为(ki,dj)的权重 · 权重 wij代表了索引词ki在文献dj中的重要性 14 经典模型-基本概念 -k i 为一索引词 -dj 为一文献 -t 是检索系统中文献的总数 -K=(k1,k2,….,kt) 索引词集合 -wij= 0 是与 (ki,dj)相关的权重 -wii =0 表示该词不在某篇文献dj中 -vec(dj)=(w1j,w2j,...,wtj) 是关于文献dj的权重 矢量 -gi(vec(di))=wij is 是返回关于(ki,dj)权重的函数 15 数字图书馆中的情报检索 ·一般认为数字图书馆是: 一数字对象的集合所构成的资源库; -描述这些数字

文档评论(0)

1亿VIP精品文档

相关文档