网站大量收购独家精品文档,联系QQ:2885784924

数字图书馆第五章信息的检索.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
简单回顾前章 信息存储的历史发展 数字图书馆的信息存储方式及其优劣 磁盘阵列技术 网络存储技术 图书馆的三级存储模式 数字图书馆的信息组织方式 第五章 数字图书馆信息检索 1.数字图书馆与信息检索(IR在DL中的应用) A.应用领域、研究热点、IT技术应用; B.目的,满足用户的信息需求,为用户提供信息服务; C.数字图书馆是信息检索的信息资源库,数字图书馆是有序的; D.信息检索是数字图书馆建设中重要的信息技术和环节。 2.信息检索的相关技术 信息组织(自动分词、自动分类、自动标引、自动索引)、建模、查询语言、体系结构、标准 3.关系数据库信息检索 3.1特点:基于索引文件(Index File)基础上的SQL查询,数据库为每一个可检索的数据项建立一个索引文件,通过索引文件对字段进行检索,属于不同表的数据项组合检索需对表链接操作, 3.2缺点:1.系统空间检索速度不理想,对检索词索引以整个数据项的内容为单位的;2.不能满足一些更深层次的索引要求,如全文检索。 3.3关系数据库提供数据库扩充功能,全文本搜索引擎可以无缝集成到数据库中,如Oracle8.x中Cartridge技术,Informix 的Data Blade技术,IBM DB2的Extender 非结构化数据库则通过倒排文档(Inverted File)实现记录的快速定位,灵活、高效的倒排文档技术不仅满足传统的探寻整字段和子字段逻辑组配查询的需求,而且能进行全文任意词的单项及组配检索,检索速度不受影响。 4.全文检索 4.1全文检索Full Text Retrieval(文本检索)过程: 文档模型 查询模型 匹配函数 性能评价 关键词检索 4.2全文检索(Full Text Retrieval)三种实现技术: 1.利用指定的检索项与全文文本的一次数据进行高速对照检索; 2.文本内容的检索项进行位置扫描、排序、建立以检索项的离散码为表目的倒排档; 3.采用超文本模型建立全文数据库,实现超文本检索。 全文本信息检索 基于内容的全文检索 基于自然语言检索 自然语言处理NLP 超文本组织方式,元素节点(Node)、逻辑联接、每个节点所存储的信息链联系一起,构成相互交叉的信息网络。 5.多媒体的信息检索 5.1多媒体信息检索步骤: 多媒体数据流--? 特征提取--多媒体数据分割 ? 识别分类?索引检索 (1)特征提取;指寻找原始信号表达形式,提取出能代表原始信号的数据形式(多媒体数据特征可以从图像、视频提取视觉特征、色彩、纹理、音频中听觉特征等);(2)数据分割;根据所提取的多媒体低层物理特征完成的,分割的是物理单元,如视频流、分割镜头单元,每个镜头单元的视频特征基本保持一致;(3)识别分类;归属成事先定义好的不同语义类,粗分或细分;(4)建立索引;途径:A文字形成的抽象概念描述这些类别,文字查询多媒体数据;B多媒体特征建立索引;C直接使用多媒体数据建立索引,还可对某个类别的多媒体内容生成摘要,摘要建立索引;(5)检索。 5.2基于内容的多媒体信息检索(如IBM QBIC技术) 主要利用媒体对象的语义、媒体的视觉特征或听觉特征进行检索。 (1)图像特征(颜色(全局色彩、局部色彩)、纹理(统计法、结构法、共生矩阵)、形状(二维、三维)等特征检索) (2)视频特征(镜头和关键帧,运动特征) (3)音频特征(时域特征、频域特征、时频特征) 5.3多媒体信息检索技术局限 (1)检索效果不理想; (2)用户查询接口单一; (3)图像特征信息表示与检索不完善;(形状、色彩、纹理、空间特征); (4)信息的自动加工与人工标引; 5.4多媒体信息检索技术的发展 (1)多途径的多媒体检索; (2)多媒体信息库的结合; (3)多特征综合检索; (4)自动标引技术; (5)高维索引技术(索引结构与算法); (6)用户查询接口。 5.5基于内容检索具有以下特点: 1.利用反映图像/视频内容的特征进行检索; 2.相似度检索即数据库中各个被检索单元(图像或镜头与检索要求的相似性程度而返回检索结果); 3.除利用反应图像/视频内容的特征进行特征检索外,还提供其它检索手段,如样本图像相似性检索,人机交互进行浏览检索。 5.6 CBR(Content Based Retrieval)4项关键技术: 图像数据库技术、内容描述技术、特征提取技术和匹配技术、快速检索技术。 6.基于MPEG-7图像检索模型研究(基于多媒体内容描述接口) MPEG-7 MPEG(运动图像专家组)提出的用于描述多媒体数据内容和支持基于内容的多媒体管理的标准,全称为“多媒体内容描述接口”,目的在于描述多媒体数据中的包括静态图像、

文档评论(0)

yigang0925 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档