第十二讲语音信号处理第10.1~10.5章研究.pptVIP

下载本文档

2
0
约3.43千字
约 35页
2016-07-31 发布于湖北
举报
版权申诉

第十二讲语音信号处理第10.1~10.5章研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

10.1概述 10.2说话人识别方法和系统结构 10.3应用DTW的说话人确认系统 10.4应用VQ的说话人识别系统 10.5应用HMM的说话人识别系统 ;10.1 概述;10.2 说话人识别方法和系统结构;10.2.1预处理包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。 10.2.2说话人识别特征的选取在说话人识别系统中特征提取是最重要的一环，特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。在理想情况下，选取的特征应当满足下述准则：能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定。易于从语音信号中提取不易被模仿尽量不随时间和空间变化;如果把说话人识别中常用的参数加以简要归类，可划分为以下几类：线性预测参数及其派生参数语音频谱直接导出的参数混合参数其他鲁棒性参数上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果;10.2.3特征参量评估方法 F比：在给定一种识别方法后，识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言，可以用F来表征它在说话人识别中的有效性。 F越大表示越有效，即不同说话人的特征量的均值分布的离散程度分布得越散越好；而同一个人的越集中越好。;10.2.3特征参量评估方法 ;10.2.4模式匹配方法概率统计方法通过对稳态特征（基音、声门增益、低阶反射系数等）的统计分析，利用均值、方差等统计量和概率密度函数进行分类判决。优点：不用对特征参量在时域上进行规整，适合与文本无关的说话人识别。动态时间规整方法（DTW）将识别模板与参考模板进行时间对比，按照某种距离测度得出两个模板之间的相似程度。常用的分法：基于最近邻原则的动态时间规整。矢量量化方法（VQ）将每个人的特定文本训练成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。优点：速度快，识别精度不低。 ;10.2.4模式匹配方法隐马尔科夫模型方法（HMM）为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出矩阵；识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。优点：无需时间规整，精度高；缺点：训练耗时较大。人工神经网络方法（ANN）人工神经网络在某种程度上模拟了生物的感知特性，是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。缺点：训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。;10.2.5说话人识别中判别方法和阈值的选择 ;10.2.6说话人识别系统的评价一个说话人识别系统的好坏是由许多因素决定的。其中主要有正确识别率（或出错率）、训练时间的长短、识别时间、对参考参量存储量的要求、使用者适用的方便程度等，实用中还有价格因素。图10.3 表示了说话人辨别与说话人确认系统性能与用户数的关系。;10.3应用DTW的说话人确认系统;10.4应用VQ的说话人识别系统;应用VQ的说话人识别过程的步骤如下：训练过程从训练语音提取特征矢量，得到特征矢量集；通过LBG算法生成码本；重复训练修正优化码本；存储码本识别过程从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化，计算各自的平均量化误差：式中是第i个码本中第l个码本矢量，而是待测矢量和码矢量之间的距离选择平均量化误差最小的码本所对应的说话人作为系统识别结果。 ;10.5应用HMM的说话人识别系统;10.5.2基于HMM的与文本无关的说话人识别 10.5.3基于HMM的指定文本型说话人识别指定文本型说话人识别系统的基本构造如图10-7所示。 ;10.5.4说话人识别HMM的学习方法 10.5.5鲁棒的HMM说话人识别技术 ;10.6应用GMM的说话人识别系统; 其中是一个D维随即向量，是子分布，，是混合权重。每个子分布是D维的联合高斯概率分布，可表示为：其中是均值向量，是协方差矩阵，混合权重值满足以下条件：完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成，表示为：