话者身份确认.docVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话者身份确认

基于内容的多媒体检索摘 要 对基于内容的多媒体检索的有关概念、特点进行介绍,关键词 音频检索概念 多媒体 基于内容的检索 图一 压缩域特征多媒体检索分类流程 压缩域音频特征提取 所谓音频特征就是用来表征原始音频信息的数据。根据特征空间的不同,音频特征可以分为时域、频域和时频三类:时域特征包括短时能量、过零率和线性预测系数等;频域特征包括线性预测(LPC)倒谱系数和MFCC等;时频特征包括短时傅立叶变换和小波系数等。近年来,为了更真实反映原始音频数据流首先被耳蜗处理,然后才在大脑处形成“音频场景”的事实[10],仿照人的听觉感知模型[11],一些特征被提取出来。于是,根据是否使用感知模型,音频特征可以分为物理和感知两类。物理特征包括短时能量、过零率、基本频率等,它来源于音频信号本身;感知特征包括音调和音高等,它依赖于人的听觉模型。要指出的是,有些时频特征也属于感知特征,如小波变换每层分解相当于一个恒Q滤波器,符合人耳听觉感知特性。 MPEG音频压缩利用了“心理声学模型(psychoacoustics model)”,在MPEG压缩领域上直接提取特征,可以保留这些感知特性,更好象人的听觉感知系统一样,实现对音频语义内容的理解。 首先把MPEG数据流分解成视频和音频两部分。其中音频流数据是MPEG-2 Layer III,采样频率为22050Hz。按照传统语音处理中对信号处理分成短时“帧”的要求,音频数据被分割成大约为20毫秒的帧序列(每一帧有576个采样值)。 对于每一帧,首先求出每一个子带矢量值的均方根 ,其中 是32维的子带矢量, 也是一个32维的矢量。 表征了这一帧的特性,由此可以得到以下的具体特征:(1)质心(Centroid): ,指一个矢量的平衡点,质心反映了在压缩域上音频信号的基本频率带;(2)衰减截止频率(Rolloff): ,指音频信号能量衰减3分贝时的截止频率。由于人耳对音频信号强弱变化相当敏感,衰减截止频率其实就是自适应的听觉阈值,它体现了心理声学中的听觉掩饰特性;(3)频谱流量(Spectral Flux):指相邻两帧的 矢量正规化后以2为模的差分,频谱流量体现了音频信号的动态特征;(4)均方根( ): ,用来衡量这一帧音频信号强度。音频场景的切换通常伴随着音量变化,因此 在分割中是十分重要的一个指标。 由于音频信号的非平稳特性,为了更好表征音频的时序变化,上述四个特征的统计信息也被提取出来作为音频特征:实验中,使用40帧为一个窗口(大约1秒),对每一帧,计算其前一个窗口中所有帧的质心,衰减截止频率和频谱流量的均值和方差,并且计算均方根低于某一阈值的比例,得到七个具有统计意义的特征。 这样,对于每一帧,总共提取了11个特征。每个音频数据流的前40帧统计特征值是这个音频流所有对应统计特征的平均值。 这11个特征反映了音频的静态和动态特性,符合心理声学模型,构成了压缩域上音频 信号的描述算子,被用来进行音频的分割、粗分和识别。 音频信号分割与粗分 研究表明,虽然音频信号特征随时间变化剧烈,但是对于同一音频类而言,其特征之间的距离变化大致有一定规律的,通过选取好的窗口距离可以体现出这种规律性来[12][13]。利用前面提取的11个特征,实验中实现了如下的音频分割算法:(1)读入MPEG音频流,对每一帧求出特征矢量 , 是11维, 表示时间(帧数);(2)求出前后相邻特征向量 和 之间的对数化欧氏距离 ,其中 表示第 帧中的第 个特征;(3)对于得到的 序列,求出时刻 前后窗口长度为 的 均值的差 ;这个过程叫窗口化(4)如果 在某一时刻值大于阈值 ,则判定在该时刻特征矢量发生了跃变,因此发生了音频信号的转换,于是音频流从此处分割。 对于分割得到的各个音频片段(clip),需要识别出每个音频片段的类别(也就是它们的低级语义)。在识别出来低级语义的基础上,才能逐步形成中级和高级语义。为了对分割出来的音频片段标注低级语义,我们先把这些音频片段按分层原则粗分成三类:音乐,语音和其它[14]。然后对其中的语音片段专门处理,去识别语音片段中的话者身份信息。 话者身份确认 对于分割并粗分得到的语音片段,需要进一步细分出话者身份信息。话者识别可以分为自动话者确认(Automatic Speaker Verification,简称ASV)和自动话者辨认(Automatic Speaker Identification,简称ASI)[15]。ASV要求系统作出“是”或“不是”所记录集合中的话者,属于二元判决;而ASI是辨认待识别的语音片段属于哪一位话者的发音,属于多元判决。本文中的说话识别指ASI。规定了发音内容的话者识别称为与文本有关(Text-Dependent)的话者识别;反之不限定发音内

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档