联合因子分析中的语音间变异性和对角项在说话人识别中的应用2011.docxVIP

下载本文档

3
0
约9.11千字
约 13页
2017-09-01 发布于重庆
举报
版权申诉

联合因子分析中的语音间变异性和对角项在说话人识别中的应用2011.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

联合因子分析中的语音间变异性和对角项在说话人识别中的应用2011

联合因子分析中的语音间变异性和对角项在说话人识别中的应用Sachin S.Kajarekar美国加州门洛帕克斯坦福国际研究所[摘要]本文在一个联合因子分析(JFA)框架中对语音间变异性对说话人识别的有效性进行研究，将会话的一端在所有会话中平均的变异性作为话音间协方差的估计(注意：它是当前JFA框架中信道变异性的一部分)。本文对代表语音间、说话人和信道变异性的特征子空间进行各自独立的估计，并通过保留或删除这些特征子空间来完成说话人识别实验，结果表明跨语音子空间和说话人子空间有更强的相关性。本文也将这些子空间结合起来进行了说话人识别的实验，结果表明当跨语音子空间和说话人子空间结合在一起时性能得到改善。这表明语音间变异性对说话人识别是有用处的。进一步的实验表明这一结果受到JFA中一个对角项的影响，特别是，当这一对角项是从一个通用背景模型(UBM)中估计得来时，通过联合说话人和语音间空间得到的改善减少。这表明对角项代表的变异性和语音间变异性之间存在相互影响。总的来说，本文的工作说明了对角项（说话人和信道子空间中）在为说话人和信道上的JFA模型中加入附加的变异性这一方面的重要性。[关键字]说话人识别联合因子分析语音变异性语言无关性语音识别1.引言联合因子分析(JFA)[1]是在说话人识别中最成功的说话人和信道变异性模型,其最初的模型已被扩展，包含了其他一些因素，比如语种和会话段[2]。本文之前的工作[3]集中于在说话人识别系统中加入语音变异性，持向量机（SVM）框架下应用多项式倒谱特征法我们获得了重大的性能提升。主旨思想是使用通话中的所有数据来训练信道或短时变异性矩阵，并将补偿特征划分为不同的音素类别，为每一种分类训练独立的SVM系统，然后将这些独立的系统以一定的比分水平结合在一起。在JFA、倒谱特征和高斯混合模型（GMM）框架中进行类似的实验，实验结果和在早一些的论文[3]中确定的结果一致，即在对每个音素进行独立估计时，说话人和信道因子的全局估计给出了最佳性能（相等错误率）。然而，对将每个音素系统进行的按比分水平组合没有显示出任何性能改善。2008年约翰霍普金斯大学的暑期研讨会进行了一项具有重要意义的研究，即为了进行说话人识别，将特有音素信息加入到JFA框架中[4]。结果得到当把说话人和信道子空间描述为一堆特有音素子空间时，可以得到最佳性能。在类似的工作[2]中，在JFA框架中除了对常规的会话间变异性建模，也对会话内变异性进行建模。假设去除这些会话内的变异性将会提升短时测试会话方式的性能，而实验结果也支持这一假设。有个问题是，在早期的处理方法[3,4]中语音间变异性在因子分析中是被忽略的，它以一定的比分水平被建模。在现在的工作中，本文关注于使用因子分析法的语音间变异性，在每一个会话端对这一变异性进行估计，然后在所有的会话上做平均。这与早期工作[2]中使用固定长度片段代替语音分类相类似。将语音间变异性加入到JFA框架中的方法有很多种，本论文中我们将探索一种途径去理解建模于常规JFA框架中的变异性，所想知道的是一个新因子和已经存在的因子间的相似程度，怎样才能最好的将新的变异性加入到JFA框架中去。2.评估架构使用NIST2008说话人识别评估(SRE)数据进行评估。使用段2至段3的情况6，其中有来自不同语种的电话会话数据，它包括1788种说话人模型，2569个测试和35869个试验。进一步得到训练数据和测试数据都使用英语的英语试验子集，这些子集包含17761次试验(也被称为情况7)。本论文中的实验结果均是在相等错误率(%EER)的情况下进行报告的，通过布尔诺科技大学(BUT)的匈牙利开放电话回路识别器获得语音队列，这一队列由2008年约翰霍普金斯大学夏季研讨会的参与者共享。3.基准JFA系统基准系统使用13段美尔频段倒谱系数[MFCCs](C0-C12)，并使用倒谱平均消去法进行处理，并有附加的Delta系数和双Delta系数。使用SRI的隐马尔科夫模型基于话音/无声分段对会话的一端进行分割。选择其中的语音段，并将这些帧中能量最低的10%丢弃，保留下的特征向量使用具有各自独立特征的均值和方差标准化，这些均值和方差在整个说话过程上计算获得。本文使用2004的SRE数据训练得到一个1024点的GMM模型，并以此作为全局背景模型(UBM)。JFA基于相同数据进行300个说话人和信道因子的估计。使用零规整(ZTnorm)评分归一化进行点乘评分[5],从中我们可以从2004和2005交替麦克风SRE数据中识别出冒充者。在JFA[6]中，假设一个给定说话人(信道亦给定)超级向量m(维度为NF=高斯模型数(N)*特征数(F))可以分解为两个超级向量单元的和：说话人超级向量Vy和干扰(或信道)超级向量及UBM均值,干扰超级向量分布于秩为的低维子空间中，