- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
10.1概述
10.2说话人识别方法和系统结构
10.3应用DTW的说话人确认系统
10.4应用VQ的说话人识别系统
10.5应用HMM的说话人识别系统
;10.1概述;10.2说话人识别方法和系统结构;10.2.1预处理
包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。
10.2.2说话人识别特征的选取
在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。
在理想情况下,选取的特征应当满足下述准则:
能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。
易于从语音信号中提取
不易被模仿
尽量不随时间和空间变化;如果把说话人识别中常用的参数加以简要归类,可划分为以下几类:
线性预测参数及其派生参数
语音频谱直接导出的参数
混合参数
其他鲁棒性参数
上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果;10.2.3特征参量评估方法
F比:在给定一种识别方法后,识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用F来表征它在说话人识别中的有效性。
F越大表示越有效,即不同说话人的特征量的均值分布的离散程度分布得越散越好;而同一个人的越集中越好。;10.2.3特征参量评估方法
;10.2.4模式匹配方法
概率统计方法
通过对稳态特征(基音、声门增益、低阶反射系数等)的统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量在时域上进行规整,适合与文本无关的说话人识别。
动态时间规整方法(DTW)
将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间的相似程度。常用的分法:基于最近邻原则的动态时间规整。
矢量量化方法(VQ)
将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。
;10.2.4模式匹配方法
隐马尔科夫模型方法(HMM)
为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。优点:无需时间规整,精度高;缺点:训练耗时较大。
人工神经网络方法(ANN)
人工神经网络在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。缺点:训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。;10.2.5说话人识别中判别方法和阈值的选择
;10.2.6说话人识别系统的评价
一个说话人识别系统的好坏是由
许多因素决定的。其中主要有正确
识别率(或出错率)、训练时间的
长短、识别时间、对参考参量存储
量的要求、使用者适用的方便程度
等,实用中还有价格因素。图10.3
表示了说话人辨别与说话人确认系
统性能与用户数的关系。;10.3应用DTW的说话人确认系统;10.4应用VQ的说话人识别系统;应用VQ的说话人识别过程的步骤如下:
训练过程
从训练语音提取特征矢量,得到特征矢量集;
通过LBG算法生成码本;
重复训练修正优化码本;
存储码本
识别过程
从测试语音提取特征矢量序列
由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:
式中是第i个码本中第l个码本矢量,而是待测矢量和码矢量之间的距离
选择平均量化误差最小的码本所对应的说话人作为系统识别结果。
;10.5应用HMM的说话人识别系统;10.5.2基于HMM的与文本无关的说话人识别
10.5.3基于HMM的指定文本型说话人识别
指定文本型说话人识别系统的基本构造如图10-7所示。
;10.5.4说话人识别HMM的学习方法
10.5.5鲁棒的HMM说话人识别技术
;10.6应用GMM的说话人识别系统;其中是一个D维随即向量,是子分布,,是混合权重。每个子分布是D维的联合高斯概率分布,可表示为:
其中是均值向量,是协方差矩阵,混合权重值满足以下条件:
完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为:
您可能关注的文档
- 《语音信号处理》MFCC梅尔频率倒谱系数.pptx
- 《语音信号处理》第3章语音信号分析1.pptx
- 《语音信号处理》第4章矢量量化.pptx
- 《语音信号处理》第5章 隐马尔科夫模型.pptx
- 《语音信号处理》第7章语音编码.pptx
- 《语音信号处理》第8章语音合成.pptx
- 《语音信号处理》第9章语音识别.pptx
- 《语音信号处理》第八讲HMM隐马尔科夫模型.pptx
- 《语音信号处理》基音及提取方法.pptx
- 2024江西江铃专用车辆厂有限公司招聘60人笔试参考题库附带答案详解 .docx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
文档评论(0)