基于内容的多媒体信息检索研讨
* * * 图像的目标关系 空间关系(如绝对位置和相对位置) 朝向关系(如上、下、左、右等) 拓扑关系(如相邻、覆盖、包含等) 结构关系 提取图像空间关系特征的方法 基于区域的图像检索 基于分块的图像检索 对图像进行自动分割 划分出图像中所包含的对象或颜色区域 索引 将图像划分为若干子块 对每个图像子块提取特征 索引 空间位置关系的讨论 空间关系描述包括基于目标的描述和基于关系的描述。 空间关系检索要解决空间关系的建模、表征、相似性量度等问题。 由于空间关系特征的模糊性、不确定性以及对自然语言描述的依赖性,因此基于空间关系的检索更复杂、更困难。 小结 视觉特征的提取是CBIR的基础。 仅仅靠单一特征很难完成图像内容的描述。 趋势:综合多个特征进行检索。 综合特性检索 目前,比较成功的基于内容的图像检索系统有: IBM公司的QBIC系统 MIT媒体实验室的Photobook系统 美国哥伦比亚大学的VisualSEEK系统 Virage公司开发的virage检索系统 香港公共图书馆的多媒体信息系统(MMIS) 基于内容的图像检索——典型系统介绍 IBM公司的QBIC系统 Query By Image Content / IBM Almaden研究中心开发的第一个商用的基于内容的图像及视频检索系统 提供对静止图像及视频信息基于内容的检索手段 系统结构及所用技术对后来的视频检索有深远的影响 MIT媒体实验室的Photobook系统 /vismod/demos/photobook/ 由MIT的媒体实验室开发研制 图像在存储时按人脸、形状或纹理特征自动分类 图像根据类别通过显著语义特征压缩编码 VisualSEEk系统 /ln/dvmm/researchProjects/ MultimediaIndexing/VisualSEEk/VisualSEEk.htm 美国哥伦比亚大学开发的图像查询系统 主要特点是用到了图像区域的空间关系查询和直接从压缩数据中提取视觉特征 Virage公司开发的virage检索系统 香港公共图书馆的多媒体信息系统(MMIS) Multimedia Information System .hk/hkclr2/internet/eng/html/welcome.html ? IBM和分包商ICO于1999年底开始承建190万美元的数字图书馆项目 被认为是世界上最大且最复杂的“中文/英文”双语图书馆服务之一 采用的DB2 Text 和Image Extenders既支持文本检索,也支持图片检索 10.1 基于内容检索技术概述 10.2 基于内容的图像检索 10.3 基于内容的视频检索 10.4 基于内容的音频检索 第10章 基于内容的多媒体信息检索 视频信息是一类复杂的信息,它不仅包含静止图像的内容,还包含场景中目标运动的信息和时间变化的信息。视频包含的数据量远远超过其他媒体,因此视频数据一直是多媒体处理和检索中最难解决的问题。 10.3 基于内容的视频检索 视频又称动态图像,是一组图像按时间顺序连续表现,它的表示与图像序列、时间关系有关。 视频序列可用视频片段、场景、镜头、帧等描述。视频片段由一系列相关的场景组成,表达一个完整的事件;场景由一些语义相关的镜头组成;镜头由一系列连续的帧组成;帧是一幅静态的图像,是组成视频的最小单位。 视频检索的实质就是在大量的视频数据中找到所需要的视频片段。 10.3.2 视频内容的结构化 视频检索的首要任务是进行镜头的检测,将不同的镜头互相分开,即视频的时域分割。 在镜头检测的基础上,针对视频数据中由大量的冗余信息,可以采用提取镜头关键帧的方法来表达镜头的主要内容。 关键帧是一幅能描述镜头主要内容的帧。 得到关键帧以后,就可以使用基于内容的图像检索技术对关键帧进行检索,于是视频检索问题就转化为图像检索问题。 镜头检测(镜头分割)、关键帧提取和动态特征提取是基于内容的视频检索的关键技术。 10.3.3 基于内容的视频检索工作流程 基于内容的视频检索工作流程 10.3.3 基于内容的视频检索工作流程 1.镜头检测(镜头分割) 镜头实际上是一段时间的视频信号,在这段时间内,摄像机可以由各种运动及变焦等操作,但没有摄像机信号的中断,因此,一段镜头内的图像不会有大的变换。 镜头检测算法有模板匹配法、直方图法、基于边缘的方法等。 2.关键帧提取 关键帧 (Key Frame) 也称代表帧,是用于描述一个镜头的关键图像帧,它通常反映一个镜头的主要内容,可以是一帧图像或多帧图像。在视频信息中,关键帧起着与关键词类似的作用。 关键帧提取的算法主要有固定间隔抽取法、基于图像特征变化
原创力文档

文档评论(0)