语音信号处理第4版第8章说话人识别思考题答案.docx

下载文档

0
0
约3.27千字
约 4页
2024-10-18 发布于山东
举报
版权申诉
保障服务

语音信号处理第4版第8章说话人识别思考题答案.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第8章说话人识别思考题答案

自动说话人识别的目的是什么？它主要可分为哪两类？说话人识别和语音识别的区别在什么地方？在实现方法和使用的特征参数上和语音识别有什么相同点和不同点？

目的：从说话人的一段语音中提取出说话人的个性特征，通过对这些个人特征的分析和识别，从而达到对说话人进行辨认或者确认的目的。

两类任务：自动说话人确认（AutomaticSpeakerVerification,ASV）和自动说话人辨认（AutomaticSpeakerIdentification,ASI）。

区别：和语音识别的区别在于，它不注重包含在语音信号中的文字符号以及语义内容信息，而是着眼于包含在语音信号中的个人特征。

实现方法和特征参数的异同点：说话人识别方法的基本原理与语音识别相同，也是根据从语音中提取的不同特征，通过判断逻辑来判定该语句的归属类别。但它也具有其特点，例如，（1）语音按说话人划分，因而特征空间的界限也应按说话人划分；（2）应选用对说话人区分度大，而对语音内容不敏感的特征参量；（3）由于说话人识别的目的是识别出说话人而不是所发的语音内容，故采取的方法也有所不同，包括用以比较的帧和帧长的选定、识别逻辑的制定等。

2、什么叫说话人辨认？什么叫说话人确认？两者有何异同之处？

说话人辨认：系统需要辨认出识别语音是来自待考察的N个人中的哪一个。

说话人确认：系统确认是否为一个人的身份。

异：说话人确认只涉及一个特定的参考模型和待识别模式之间的比较，系统只做出“是”或“不是”的二元判决；说话人辨认则要对N个人的信息进行匹配，有时还要对这Ｎ个人以外的语音做出拒绝的判别。同：本质上都是根据说话人所说的测试语句或关键词，从中提取与说话人本人特征有关的信息，再与存储的参考模型比较，做出正确的判断。

3、在说话人识别中，应选择哪些可以表征个人特征的识别参数？汉语语音的说话人识别应该注意些什么问题？应该如何使用超音段信息？应该如何使用混合特征参数？

常用于说话人识别的特征参数：语音短时能量、基音周期（现已证实基音周期及其派生参数携带有较多的个人信息）、语音短时谱或BPFG特征（包括14~16个BPF）、线性预测系数LPC、共振峰频率及带宽、LPC倒谱等，以及反映这些特征动态变化的线性回归系数等，其他的特征参数还包括鼻音联合特征、谱相关特征、相对发音速率特征、基音轮廓特征等，另外，也可以对这些特征进行变换加工，如K－L变换等，而得到加工后的二次特征。

汉语语音的说话人识别应该注意声调对特征参数选取的影响与方言口音差异对识别准确率的影响。

超音段信息可以用于预分类技术中加快系统响应的时间。

使用混合特征参数时要保证组成矢量的各参量之间的相关性不大，这样才能够反映语音信号中不同的特征效果，如将“动态”参量（对数面积比与基频随时间的变化）与“统计”分量（由长时间平均谱导出）相结合，还有将逆滤波器谱与带通滤波器谱结合，或者将线性预测参数与基音轮廓结合等参量组合方法。

4、怎样评价说话人识别特征参数选取的好坏？什么是F比有效性准则？F比的概念是怎样推广到多个特征参量构成的多维特征矢量的？

评价特征参数选取是否有效：同一说话人的不同的语音会在参数空间映射出不同的点，若对同一说话人这些点分布比较集中，而对不同说话人的分布相距较远，则选取的参数就是有效的。

F比有效性准则：通过选取上述两种分布的方差之比（F比）来作为有效性准则，具体就是不同说话人的特征参数均值的方差与同一说话人特征方差的均值之比。

F比推广到多维特征矢量：通过定义说话人内特征矢量的协方差矩阵W和说话人间特征矢量的协方差矩阵B来得到D比，实现多维特征矢量有效性评价。

5、请说明基于GMM的说话人识别系统的工作原理？你从文献上看到过有关GMM模型训练的改进方法吗？请介绍其中一种较好的方法。当训练语料不足时，计算协方差矩阵时应注意什么问题？

工作原理：将每个人的语音建模为一个GMM来进行表征，训练GMM的过程通常使用期望最大化（EM）算法，通过以似然度为目标进行迭代优化来估计模型参数λ，在说话人辨认时，将说话人的输入语音与语音库中的模型进行匹配，使得待识别语音特征矢量组具有最大后验概率，即可找到对应的说话人。

改进方法：自行调研。

训练语料不足时应注意的问题：训练语料不足时，GMM模型的协方差矩阵的一些分量可能会很小，这些很小的值对模型参数的似然度函数影响很大，严重影响系统的性能。该问题可以在EM算法的迭代计算中，对协方差的值设置一个门限值，在训练过程中令协方差的值不小于设定的门限值，否则用设置的门限值代替。门限值设置可通过观察协方差矩阵来定。

6、怎样解决由时间变化引起的说话人特征的变化？模型训练时应怎样考虑说话人特征随时间的变化？什么叫模型自适应？应该用什么方法来达到

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

语音信号处理第4版第8章说话人识别思考题答案.docx