话者自动识别系统实用研究.docVIP

下载本文档

5
0
约4.11千字
约 9页
2018-09-20 发布于福建
举报
版权申诉

话者自动识别系统实用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

话者自动识别系统实用研究

话者自动识别系统实用研究　　摘要：涉案录音资料越来越多的出现在各类诉讼案件里，迫切需要科学、高效的话者语音识别技术，话者自动识别方法已经成为是国内外相关领域的重要研究课题。在简介自动识别系统原理后，利用BATVOX识别系统，处理了几个真实案件语音，并对结果做了讨论。　　关键词：话者识别高斯混合模型似然率　　　　1 引言　　随着声像技术和产品的普及，越来越多的录音资料出现在社会生活各个角落。民事和刑事的各类案件里，与案中人员、案情和案件过程有关的录音资料越来越多。录音资料作为诉讼证据，必须经过法庭鉴定。国内外已经具有传统的语音识别技术，只是其分析过程与结论与技术人员的专业素质有较大的相关性。从20世纪50年代人们就力图利用计算机技术发展话者语音自动识别系统，到20世纪末和本世纪初，已经出现在实验室条件下取得较好效果的话者自动识别系统。这些系统多数是利用提取的语音特征参数，构建能够代表话者嗓音特征的高斯混合模型(Gaussian Mixture Model，GMM)。本文在讨论自动识别系统原理之后，利用已经形成商品的西班牙马德里Politécnica 研究院的话者自动识别系统BATVOX，处理几个实际案件语音，并对结果做了讨论。　　　　2 话者自动识别系统　　图1是话者自动识别系统基本流程，流程的各项内容如下。　　2.1 输入语音　　涉案录音资料里的未知语样（问题语样）来自何人，是话者自动识别系统要回答的问题，未知语样是重要的输入语音。　　为了估计话者之间和话者自身的语音变异，还需输入两个较大的语样集合。它们是：　　潜在人群语音数据库P：是由性别、言语种类和未知语样相似的人群，以与未知样本相同的信道录制的语音资料构成的，选择的发音人数通常为50-100左右。P库与未知样本比较，可以估计话者之间的语音变异。　　嫌疑人参考数据库R：是由性别、言语种类和未知样本相同的所有嫌疑人、以与未知样本相同的信道录制的语音资料构成的。由于案件类别、性质各异，能够得到嫌疑人录音资料的数量有多有少。R库嫌疑人之间的比较，可以估计话者自身的语音变异。　　2.2 预处理　　删除输入语音的寂静段，反混叠滤波，将输入语音规范化等。　　2.3 提取特征　　从经过预处理的语音提取能够反映话者嗓音特征的参数，现在话者识别系统多数提取Mel频率倒谱系数（MFCC），线性预测倒谱系数(LPCC)等特征参数。　　2.4 模型化　　提取出来的嗓音特征参数组成多维矢量，用以构筑话者模型。目前多数话者识别系统都　　采用高斯混合模型(Gaussian Mixture Model，GMM) [1-3] ，GMM既能模拟瞬态、也能模拟稳态的声道特征，在信道噪声以及频谱失真的情况下表现比较稳定。倒谱系数矢量即为GMM模型里的观测矢量。混合数为M的GMM基本形态是：　　fi（x）= (2π)-D/2|Σi |-1/2exp[-1/2(x - micro;i)T ∑i -1(x - micro;i)] 　　P（x/λ）= ∑πi fi（x）　　∑πi = 1 　　其中，fi（x）是第i个话者的几率密度分布函数；P（x/λ）是M阶加权的GMM密度值；D，是多维矢量空间的特征参数，共有d个特征值。πi 是混合权重。micro;i 某个分量密度的平均矢量也叫均值矢量。Σi 是第i个分量密度的协方差矩阵，可以是满秩矩阵，也可简化为对角矩阵。 X ，是d 维观测矢量。(x - micro;i)T是(x - micro;i) 的转置。　　2.5 比较　　为了理解GMM自动识别系统给出的结果，首先简单介绍一下似然率LR （Likelihood Ratios，LR）的概念。　　在诉讼中最常见的情况是：面对同一个证据，控、辩双方的意见截然相反，控方认为来自案件现场的检材（未知样本）与从嫌疑人处得到的已知样本是同源的，而辩方则认为它们是不同源的。在贝叶斯似然率理论（Likelihood Ratio of Bayes’ Theorem ）看来，控辩双方的主张或许都有道理，但又不能十分肯定，因此将双方的主张称为控方假设和辩方假设。似然率理论的目的就是在所给定的证据条件下，估计控、辩双方假设出现的概率。　　贝叶斯理似然率论理论通常将控、辩双方的概率表示为　　其中,P表示概率，E表示证据条件，H0 表示控方假设，H1 表示辩方假设。而将二者的比值定义为似然率LR 　　LR 大小决定了对控方、辩方的支持强度。表1给出LR的数值区间，以及对控、辩双方支持强度的文字解释。　　话者自动识别系统基本流程里的预处理、特征提取、模型化和比较都由识别系统自动完成。图2给出自动识别系统的估计结果。图中纵坐标是