基于内容的音%2f视频检索技术地研究.pdfVIP

  • 2
  • 0
  • 约5.51千字
  • 约 4页
  • 2017-08-19 发布于安徽
  • 举报

基于内容的音%2f视频检索技术地研究.pdf

第九届全国有线电视技术研讨会论文集 ..221—. 基于内容的音/视频检索技术的研究 中国传媒大学信,电工程学院刘奇峰戴志强 摘要:如何有效地对海量数据尤其是诸如音频、视频之类的多媒体数据进行分析.存储和检索是一个重待解决的问题,而将音 频检索出的结果用于相应视频的索引标注刚更是一个崭新的研究课趣。本文正是从此出发.对基于内窖的多媒体检索的有关概念. 特点进行了介绍.通过在压缩域上对MPEG音频信号进行分割、提取特征等操作.实现了对语音信号及其相应的视频进行实时分 析和检索的目的。 关键词:音频检索视频检索CBR多媒体 1 引 言 随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本、音频和视频等多媒体信息不断 增加。这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理 地检索出需要的信息,即多媒体的检索问题。 在多媒体系统中,声音媒体和视觉媒体是最重要的两种媒体,而多媒体检索正是从各种多媒体资源中找出 满足用户需求的音频/视频的过程o】。然而由于原始音频数据的非结构化特性,音频检索受到了极大的限制,与 日益成熟的视频检索相比,音频检索显得相对滞后,而将音频检索出的结果用于视频检索的标注则更是一个富 有创新性和挑战性的课题。 2基于内容的多媒体检索的概述 Based 近年来,国内外在多媒体数据库技术的研究中出现了~个新的热点一基于内容的检索CBR(Content Retrieval)。所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形 状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本的 检索(名字,年月,价格等)技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容 特征建立索引并进行检索。 圈1压瑭域多媒体检索的漉程 .222_ 第九届全国有线电视技术研讨全论文集 另外,随着网络技术的普及,对多媒体数据进行实时分析也成为了需要。传统多媒体检索中提取的特征基 本上是基于非压缩域的,随着多媒体应用技术的发展,MPEG凭借其易于传输存储的优点而成为多媒体数据压 缩的通用标准蠲。同时,MPEG对音频部分的编码结合了听觉心理学,编码时就考虑了人的听觉感知特性,所以 直接在MPEG压缩域上提取特征,可以使这些感知特性不会丢失,保证对音频信息的正确理解;另外在音频数 据流中,说话人是非常重要的语义信息,如不同的节目主持人会报道不同内容的新闻节且(体育,天气预报和时 事等)。通过对讲话人语音的分析,自动辨认出话者身份,既可以用话者身份对音频进行语义标注,也可以对其 相应的视频信息流进行分类,即实现了不同媒体之问的索引。 本文正是基于以上的分析,研究了一种直接在压缩域上进行多媒体分析和检索的方法:首先,MPEG数据 流被分成视频和音频两部分,然后对压缩域音频流进行分割与粗分,并且对识别出来的语音片段中的话者身份 进行辨认,最后用辨认出来的话者身份对相应的语音音频和视频进行标注,达到通过音频检索视频的目的,系 统框图如图l所示。 3压缩域音频特征提取 所谓音频特征就是用来表征原始音频信息的数据。根据特征空间的不同,音频特征可以分为时域、频域和 时频域三类:时域特征包括短时能量、过零率和自相关等;频域特征包括线性预测(LPC)倒谱系数和MFCC等; rood· d)”。在MPEG压缩域上直接提取特征,可以保留这些感知特性,像人的听觉感知系统一样,实现对音频语义内 容的理解。 首先把MPEG数据流分解成视频和音频两部分。其中音频数据流是MPEG一2Ill,采样频率为

文档评论(0)

1亿VIP精品文档

相关文档