话者自动识别系统实用研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话者自动识别系统实用研究

话者自动识别系统实用研究   摘要:涉案录音资料越来越多的出现在各类诉讼案件里,迫切需要科学、高效的话者语音识别技术,话者自动识别方法已经成为是国内外相关领域的重要研究课题。在简介自动识别系统原理后,利用BATVOX识别系统,处理了几个真实案件语音,并对结果做了讨论。   关键词: 话者识别 高斯混合模型 似然率      1 引言   随着声像技术和产品的普及,越来越多的录音资料出现在社会生活各个角落。民事和刑事的各类案件里,与案中人员、案情和案件过程有关的录音资料越来越多。录音资料作为诉讼证据,必须经过法庭鉴定。国内外已经具有传统的语音识别技术,只是其分析过程与结论与技术人员的专业素质有较大的相关性。从20世纪50年代人们就力图利用计算机技术发展话者语音自动识别系统,到20世纪末和本世纪初,已经出现在实验室条件下取得较好效果的话者自动识别系统。这些系统多数是利用提取的语音特征参数,构建能够代表话者嗓音特征的高斯混合模型(Gaussian Mixture Model,GMM)。本文在讨论自动识别系统原理之后,利用已经形成商品的西班牙马德里Politécnica 研究院的话者自动识别系统BATVOX,处理几个实际案件语音,并对结果做了讨论。      2 话者自动识别系统   图1是话者自动识别系统基本流程,流程的各项内容如下。   2.1 输入语音   涉案录音资料里的未知语样(问题语样)来自何人,是话者自动识别系统要回答的问题,未知语样是重要的输入语音。   为了估计话者之间和话者自身的语音变异,还需输入两个较大的语样集合。它们是:   潜在人群语音数据库P:是由性别、言语种类和未知语样相似的人群,以与未知样本相同的信道录制的语音资料构成的,选择的发音人数通常为50-100左右。P库与未知样本比较,可以估计话者之间的语音变异。    嫌疑人参考数据库R:是由性别、言语种类和未知样本相同的所有嫌疑人、以与未知样本相同的信道录制的语音资料构成的。由于案件类别、性质各异,能够得到嫌疑人录音资料的数量有多有少。R库嫌疑人之间的比较,可以估计话者自身的语音变异。   2.2 预处理   删除输入语音的寂静段,反混叠滤波,将输入语音规范化等。   2.3 提取特征   从经过预处理的语音提取能够反映话者嗓音特征的参数,现在话者识别系统多数提取Mel频率倒谱系数(MFCC),线性预测倒谱系数(LPCC)等特征参数。   2.4 模型化   提取出来的嗓音特征参数组成多维矢量,用以构筑话者模型。目前多数话者识别系统都   采用高斯混合模型(Gaussian Mixture Model,GMM) [1-3] ,GMM既能模拟瞬态、也能模拟稳态的声道特征,在信道噪声以及频谱失真的情况下表现比较稳定。倒谱系数矢量即为GMM模型里的观测矢量。混合数为M的GMM基本形态是:   fi(x)= (2π)-D/2|Σi |-1/2exp[-1/2(x - micro;i)T ∑i -1(x - micro;i)]   P(x/λ)= ∑πi fi(x)   ∑πi = 1   其中,fi(x)是第i个话者的几率密度分布函数;P(x/λ)是M阶加权的GMM密度值;D,是多维矢量空间的特征参数,共有d个特征值。πi 是混合权重。micro;i 某个分量密度的平均矢量也叫均值矢量。Σi 是第i个分量密度的协方差矩阵,可以是满秩矩阵,也可简化为对角矩阵。 X ,是d 维观测矢量。(x - micro;i)T是(x - micro;i) 的转置。   2.5 比较   为了理解GMM自动识别系统给出的结果,首先简单介绍一下似然率LR (Likelihood Ratios,LR)的概念。   在诉讼中最常见的情况是:面对同一个证据,控、辩双方的意见截然相反,控方认为来自案件现场的检材(未知样本)与从嫌疑人处得到的已知样本是同源的,而辩方则认为它们是不同源的。在贝叶斯似然率理论(Likelihood Ratio of Bayes’ Theorem )看来,控辩双方的主张或许都有道理,但又不能十分肯定,因此将双方的主张称为控方假设和辩方假设。似然率理论的目的就是在所给定的证据条件下,估计控、辩双方假设出现的概率。   贝叶斯理似然率论理论通常将控、辩双方的概率表示为   其中,P表示概率,E表示证据条件,H0 表示控方假设,H1 表示辩方假设。而将二者的比值定义为似然率LR   LR 大小决定了对控方、辩方的支持强度。表1给出LR的数值区间,以及对控、辩双方支持强度的文字解释。   话者自动识别系统基本流程里的预处理、特征提取、模型化和比较都由识别系统自动完成。图2给出自动识别系统的估计结果。图中纵坐标是

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档