- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于内容的音频检索中特征提取方法研究
基于内容的音频检索技术
邢伟利周明全
(西北大学 可视化研究所,陕西 西安 710069)
摘 要:提出了一种基于示例查询的音频检索方法,包括音频特征提取、相似音频检索及音频分类,并通过已研制的基于内容的音频检索系统进行了实现,经测试,此方法具有较高的准确性。
关 键 字:音频检索;特征提取;音频分类
中图分类号:TP391.4 文献标识码:A 文章编号:1000-274X(2003)0054-08
在当今数字化与网络化时代,图像、音频和视频等多媒体内容已成为互连网信息高速公路上所传送数据的主要部分,基于文本的检索方法已不能满足数字化多媒体信息检索的需要,基于内容的多媒体检索技术应运而生。
由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频检索受到极大的限制。相对于日益成熟的图像与视频检索,音频检索相对滞后。基于内容的音频检索已成为多媒体检索技术的研究热点。
基于文本的Web引擎,如Google,Baidu,但还缺乏比较实用的音频搜索引擎。Internet上的多媒体流非常巨大,需要一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外,音频检索在辅助视频检索和卡拉OK检索系统以及军事刑侦领域方面都有巨大的应用价值和广阔的研究前景。
音频包括语音和非语音(Non-speech)两类信号。一直以来,音频信号的处理主要集中于语音识别、说话者识别等语音处理方面的研究如在语音识别方面IBM的ViaVoice已趋于成熟。但于基于内容的音频信息检索技术的研究还不多只有在基于音频物理特征的检索技术方面有所突破,才可能在更高层次的基于知识辅助的音频检索方面做出更深入研究。真正基于内容的音频检索工作是由美国Muscle Fish公司完成的,他们研究的系统可以对音频进行检索和分类,有较高的准确率。基于内容的音频技术有大量问题研究。
1 基于内容的音频检索技术分析
所谓基于内容的音频检索,是指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似。
1.1 音频检索的基本方法
音频检索第一步是建立数据库,对音频数据进行特征提取,并通过特征对数据聚类。音频检索主要采用示例查询方式(Query by example),用户通过查询界面选择一个查询例子,并设定属性值,然后提交查询。系统对用户选择的示例提取特征,结合属性值确定查询特征矢量,并对特征矢量进行模糊聚类,然后检索引擎对特征矢量与聚类参数集匹配,按相关性排序后通过查询接口返回给用户。
1.2 音频特征提取方法
特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据。音频特征提取有两种不同的技术线路一种是从叠加音频帧中提取特征,其原因在于音频信号是短时平稳的,所以在短时提取的特征较稳定;二是从音频片段中提取,因为任何语义都有时间延续性,在长时间刻度内提取音频特征可以更好反映音频所蕴涵的语义信息,一般是提取音频帧的统计特征作为音频片段特征。
首先对音频数据进行加窗处理形成帧,加窗大小在几到几十微秒,相邻帧之间一般有30%~50%的叠加。然后对每一帧作离散傅立叶变换(DFT),实际上常用快速傅立叶变换(FFT),得到傅立叶系数和频域能量,其中,f s为采样频率。最后应用不同算法计算相应的帧特征,计算帧特征标准偏差、数学期望和方差把帧特征推广成片段特征。
指在一个短时音频窗口内采样点信号所聚集的平均能量。假定每个短时帧大小假定为N,为用Nyquist频率采样后的离散音频信号。对于第m个短时帧,短时平均能量可以使用下面的公式计算
短时平均能量可以直接应用到静音检测(Silence etection)。
指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。
当时,;否则。过零率可用来区分语音和音乐两种不同音频信号。
是度量声音亮度(brightness)的指标,计算公式为
1.2.4带 宽 是衡量音频频域范围的指标,其定义为
其中FC(requency centroid)为频率中心。一般地,语音的带宽范围3~3.4kHz,而音乐的带宽范围比较宽,可以在22.05Hz左右。
Mel对数倒谱系数MFCC MFCC在语音领域中得到广泛的应用。它是音频数据经Z变换和对数处理后得出的结果,一般每段数据取12个系数可以较好地表现每段的特征。
1.3相似音频例子检索
相似音频例子检索是指基于用户提交的查询音频,得到最相似的音频,即计算音频特征的距离。
对音频数据提取特征后,假设共N个特征,则形成了一个N维特征矢量的序列。为了缩减数据量而又不失掉每个音频原来的特征,可以对N维特征矢量进行聚类,提取出固定数目的质心来表示音频,用聚类
文档评论(0)