话者身份确认.docVIP

下载本文档

1
0
约4.13千字
约 9页
2017-12-30 发布于河北
举报
版权申诉

话者身份确认.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

话者身份确认

基于内容的多媒体检索摘　要　对基于内容的多媒体检索的有关概念、特点进行介绍，关键词　音频检索概念　多媒体　基于内容的检索图一压缩域特征多媒体检索分类流程压缩域音频特征提取所谓音频特征就是用来表征原始音频信息的数据。根据特征空间的不同，音频特征可以分为时域、频域和时频三类：时域特征包括短时能量、过零率和线性预测系数等；频域特征包括线性预测(LPC)倒谱系数和MFCC等；时频特征包括短时傅立叶变换和小波系数等。近年来，为了更真实反映原始音频数据流首先被耳蜗处理，然后才在大脑处形成“音频场景”的事实[10]，仿照人的听觉感知模型[11]，一些特征被提取出来。于是，根据是否使用感知模型，音频特征可以分为物理和感知两类。物理特征包括短时能量、过零率、基本频率等，它来源于音频信号本身；感知特征包括音调和音高等，它依赖于人的听觉模型。要指出的是，有些时频特征也属于感知特征，如小波变换每层分解相当于一个恒Q滤波器，符合人耳听觉感知特性。 MPEG音频压缩利用了“心理声学模型（psychoacoustics model）”，在MPEG压缩领域上直接提取特征，可以保留这些感知特性，更好象人的听觉感知系统一样，实现对音频语义内容的理解。首先把MPEG数据流分解成视频和音频两部分。其中音频流数据是MPEG－2 Layer III，采样频率为22050Hz。按照传统语音处理中对信号处理分成短时“帧”的要求，音频数据被分割成大约为20毫秒的帧序列（每一帧有576个采样值）。对于每一帧，首先求出每一个子带矢量值的均方根，其中是32维的子带矢量，也是一个32维的矢量。表征了这一帧的特性，由此可以得到以下的具体特征：（1）质心（Centroid）：，指一个矢量的平衡点，质心反映了在压缩域上音频信号的基本频率带；(2)衰减截止频率（Rolloff）：，指音频信号能量衰减3分贝时的截止频率。由于人耳对音频信号强弱变化相当敏感，衰减截止频率其实就是自适应的听觉阈值，它体现了心理声学中的听觉掩饰特性；（3）频谱流量（Spectral Flux）：指相邻两帧的矢量正规化后以2为模的差分，频谱流量体现了音频信号的动态特征；（4）均方根（）：，用来衡量这一帧音频信号强度。音频场景的切换通常伴随着音量变化，因此在分割中是十分重要的一个指标。由于音频信号的非平稳特性，为了更好表征音频的时序变化，上述四个特征的统计信息也被提取出来作为音频特征：实验中，使用40帧为一个窗口（大约1秒），对每一帧，计算其前一个窗口中所有帧的质心，衰减截止频率和频谱流量的均值和方差，并且计算均方根低于某一阈值的比例，得到七个具有统计意义的特征。这样，对于每一帧，总共提取了11个特征。每个音频数据流的前40帧统计特征值是这个音频流所有对应统计特征的平均值。这11个特征反映了音频的静态和动态特性，符合心理声学模型，构成了压缩域上音频信号的描述算子，被用来进行音频的分割、粗分和识别。音频信号分割与粗分研究表明，虽然音频信号特征随时间变化剧烈，但是对于同一音频类而言，其特征之间的距离变化大致有一定规律的，通过选取好的窗口距离可以体现出这种规律性来[12][13]。利用前面提取的11个特征，实验中实现了如下的音频分割算法：（1）读入MPEG音频流，对每一帧求出特征矢量，是11维，表示时间（帧数）；（2）求出前后相邻特征向量和之间的对数化欧氏距离，其中表示第帧中的第个特征；（3）对于得到的序列，求出时刻前后窗口长度为的均值的差；这个过程叫窗口化（4）如果在某一时刻值大于阈值，则判定在该时刻特征矢量发生了跃变，因此发生了音频信号的转换，于是音频流从此处分割。对于分割得到的各个音频片段(clip)，需要识别出每个音频片段的类别（也就是它们的低级语义）。在识别出来低级语义的基础上，才能逐步形成中级和高级语义。为了对分割出来的音频片段标注低级语义，我们先把这些音频片段按分层原则粗分成三类：音乐，语音和其它[14]。然后对其中的语音片段专门处理，去识别语音片段中的话者身份信息。话者身份确认对于分割并粗分得到的语音片段，需要进一步细分出话者身份信息。话者识别可以分为自动话者确认（Automatic Speaker Verification，简称ASV）和自动话者辨认（Automatic Speaker Identification,简称ASI）[15]。ASV要求系统作出“是”或“不是”所记录集合中的话者，属于二元判决；而ASI是辨认待识别的语音片段属于哪一位话者的发音，属于多元判决。本文中的说话识别指ASI。规定了发音内容的话者识别称为与文本有关（Text-Dependent）的话者识别；反之不限定发音内