06基于内容的音频检索1解析.ppt

下载文档 降价啦

11
0
约2.2千字
约 22页
2016-04-03 发布于湖北
举报
版权申诉
保障服务

06基于内容的音频检索1解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

06基于内容的音频检索1解析.ppt

基于内容的音频检索河南师范大学计算机学院第一讲主要内容音频检索简介音频的主要属性和特征通用的音频内容检索过程音频的分段和分类语音识别与检索音乐的索引与检索。 1 音频检索简介传统的音频检索方式及缺陷其方式是基于注释的文本检索缺陷：主观性、片面性和缺乏实时性而且耗时耗力优点：有一定语义、技术成熟（文本检索成熟）基于内容的音频检索的主要思想短时帧的概念：音频特征在较短的时间内具有短时平稳性使得可以使用它作为处理音频的最小单位基于内容的音频索引和检索通用的方法。 2 音频的主要属性和特征时域特征：短时平均能量、过零率、静音比和线性预测系数频域特征：频谱中心、带宽、谐音、音调、频率特性系数和其他频域特征声谱图：将音频的时间信息和频率信息组合在一起来表示音频的方法主观特征：用来描述人们对音乐的一些主观理解。主要有音色、节奏、响度和亮度。 3 通用的音频内容检索过程对音频分段与分类的两个原因：对于不同的音频类型需要使用不同的处理和索引方法查询往往是针对音频片段而非整段音乐音频分段与分类：对于一段连续的音频数据，首先将其分割成长短不一的音频单元-分段，然后对各个音频单元进行识别，将它们归属为不同的音频类别-分类；通用音频内容检索过程。 4 音频的分段和分类音频例子的特征提取逐步判断分类特征向量分类。 5 语音识别与检索语音识别简介语音识别过程语音识别系统框架语音识别常用的技术语音识别系统评估说话者识别。 6 音乐的索引与检索音乐的存储类型音乐的索引基于内容的音乐检索基于内容的音频检索的主要思想通过音频的特征分析，对不同的音频数据自动赋予不同的语义；并且，具有相同语义的音频数据还需要在听觉上保持一定的相似度，以此来实现对音频的查询。基于内容的音频索引和检索通用的方法首先把音频归结到一些常见的类型(比如语音、音乐和一般的波形音频)；然后根据不同的音频类型分别用不同的方法处理和索引，查询输入的音频例片也进行类似的分类、处理；最后比较查询和数据库中的音频索引，返回最为相似的音频片段。短时平均能量定义：在一个短时帧内采样信号所聚集的平均能量公式：假定某个短时帧对应的时间窗口为N，即包含N个信号采样点，则短时帧的平均能量E为：其中x(n)表示短时帧中第n个采样信号值。过零率指音频信号值在单位时间内穿过零点的次数，一个短时帧的过零率用如下公式计算：其中，sgnx(n)是x(n)的符号值，如果x(n)是正，则它为1，如果x(n)是负，则它为-1。静音比静音比表示静音的声音片段的比例静音定义为某个确定数量的样本的绝对幅值低于某个阈值的时间段如果样本的幅值低于幅值阈值，则认为样本是静音的静音比=静音时段的综合/音频片段总长度。线性预测系数用一个线性模型来模拟一段较长的音频信号序列，如果具有有限个参数的线性数学模型近似表示该系列，而参数的个数小于音频采样数，那么这个参数就为线性预测系数(linear predictive coefficient 简称LPC)。频谱中心又称亮度，用来刻画音频所含频率中心(考虑能量加权)的特征频谱中心的计算公式：带宽是衡量音频域范围的指标用如下公式表示：谐音将音频信号中最低的成分称为基频(fundamental frequency),称频率为最低频率倍数的频谱成分为谐音通常把基频记做f，把谐音记做2f,3f, …等。音调音调是人们对音频声音高低的感觉，是一种主观特征；音调与基频相关，但不完全等价于基频；然而，在实际应用中，常常就用基频来作为音调的近似。频率特性系数音频信号的频域特征分析就是先把音频信号用具有不同频率和幅度的谐波构造出来，然后对这些谐波进行特征系数提取；有两种较常用的音频信号频率特征系数，分别是线性预测倒谱系数(linear predictive cepstrum coefficient,简称LPCC)和Mel频率倒谱系数(Mel frequency cepstrum coefficient，简称MFCC)。音色声源不同，音色不同，而音色的不同主要是由声源的不同谐音成分所决定的；音色通常用来区分不同乐器或嗓音的音质，它对音乐的情感效果贡献最大。响度由对信号进行短时傅里叶变换得到的能量再取平方根，其度量单位是分贝；人耳能听到响度范围为0db-120db；按普通人的听觉：　　0 －2 0 分贝很静、几乎感觉不到　 2 0 －4 0 分贝安静、犹如轻声絮语　　4 0 －6 0 分贝一般、普通室内谈话　　6 0 －7 0 分贝吵闹、有损神经　　7