基于内容音频检索关键技术.pptVIP

下载本文档

23
0
约2.89千字
约 17页
2017-08-31 发布于安徽
举报
版权申诉

基于内容音频检索关键技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于内容的音频检索关键技术的研究问题：传统的方法，其主要缺点有：一是当数据量越来越多时，人工注释的工作量加大；二是人对音频的感知有时难以用文字注释表达清楚，人工注释存在不完整性和主观性；三是不能支持实时音频数据流的检索。这里主要综述了音频检索方法，讨论了一些音频检索中的关键技术：音频特征提取、音频分类、语音识别技术等。 1.基于内容的音频检索操作步骤: (1)将音频数据分类，分成语音、音乐及一般类型。 (2)不同类型的音频数据可以以不同的方式进行处理和索引。 (3)查询音频片段要同样地进行分类、处理和索引。 (4)根据查询索引和数据库中音频索引之间的相似性，对音频片段进行检索。再根据相关度进行排序。 2.1 音频特征提取时域特征提取和频域特征提取 (1) 音频时域特征的提取平均能量说明了音频信号的强度，过零率指每秒内信号值通过零值的次数，静音比表示静音的声音片段的比例。 2.2 音频频域特征的提取傅里叶变换可分解出音频信号的频率成分，可提取的音频频域特征有带宽、频谱中心、谐音、音调等。带宽说明了声音的频率范围。频谱中心也称亮度，是一个声音频谱能量分布的中心点。谐音为最低频率的倍数的频谱成分。音调是听觉分辨声音高低的特性，完全由频率决定，可通过频谱估计 3.1 音频分类 (1) 不同类型声音的主要特征 3.2音频分类方法及顺序首先计算输入音频片段的频谱中心，如果比阈值高，则认为是音乐；否则是语音，其次计算静音比，如果静音比低，则认为是音乐；否则，认为它是语音或独奏音乐。最后计算平均过零率ZCR，如果ZCR 可变性高，则它是语音，否则它是独奏音乐。特征判定的顺序是非常重要的，一般首先判定差别性大、复杂性低的特征，这样可降低整个计算量。 4.音频检索将音频分为语音和音乐，使用不同的技术对它们进行单独处理。 1. 语音识别和检索语音索引和检索的基本方法是运用语音识别技术把语音信号转化为文本，然后应用IR技术进行索引和检索。 1.1 语音识别自动的语音识别(ASR)问题就是一个模式匹配问题。一个ASR系统通常包括训练和模式匹配两个阶段。在训练阶段， ASR系统收集大量的发音者的语音序列，然后ASR系统提取每个语音单位的特征并存放在系统中。在识别过程中，ASR系统用与训练阶段相似的方法对输入语音进行处理，产生特征矢量，找到与输入语音的特征矢量最匹配的特征矢量的单词序列。其中基于HMM 的技术是最为流行且语音识别性能最好的，下面将详细介绍。首先将每个音素分解成输入状态、中间状态和输出状态 3个可听到的状态，每个状态可持续超过一个帧的时间（通常为 10ms）。在训练阶段，使用训练语音数据为每个可能的音素构建 ASR 。每个 ASR都具有以上3个状态，并由状态转换概率和符号发生概率来定义。由于时间只向前流动，因此一些转换是不允许的。在训练阶段末期，由不同的发音者、时间变化和周围的声音引起的变化，是每个音素都由捕获不同帧的特征矢量变化的一个 ASR表示。在语音识别阶段，按照帧的顺序计算每个输入音素的特征矢量。识别问题的目的是去发现哪个音素 ASR最可能产生输入音素的特征矢量序列。ASR对应的音素被认为是输入音素，由于一个单词含有大量的音素，因此通常把音素序列放在一起进行识别。 1.2发音者识别 (2)音乐索引和检索音乐的类型有两种：结构化的(或综合的)音乐和基于样本的音乐。 2.1 结构化音乐的索引和检索结构化音乐和声音效果是由一系列指令或算法来表示的。最常见的结构化音乐是 MIDI，它把音乐表示成大量的音符和控制指令。结构化音乐和声音效果非常适合于音频基于精确匹配的查询。用户可指定一个音符序列作为查询，尽管可以找到该音符序列的精确匹配，但是由于相同结构化的声音文件可以由不同的设备以不同的方式进行表现。目前一种可行的方法是基于音符序列的音调变化来检索音乐。其基本思想是：将声音文件中的每个音符（第一个音符除外）转换成相对前一个音符的音调变化。三种状态：该音符比前一音符高(U)、该音符比前一音符低 (D)和该音符与前一音符相同或相似(S)。按这种规则，任意一段旋律可转化为一个包含字母 U、D、S 的符号序列，检索任务也就变成了一个字符串匹配过程。该方法是针对基于样本的声音检索提出的，也同样适用于结构化声音检索。 2.2 基于样本的音乐的索引和检索基于样本的音乐的索引和检索有两种通用的方法：一是基于抽取的声音特征集合，二是基于音乐音符的音调。 1. 基于特征集的音乐检索对每种声音抽取听觉特征集，将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性。该方法可应