基于说话人声音识别的技术论述.doc

下载文档 降价啦

9
0
约7.74千字
约 21页
2016-08-07 发布于湖北
举报
版权申诉
保障服务

基于说话人声音识别的技术论述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数字信号处理课程设计报告题目：基于声音的说话人身份识别技术研究学院：信息工程学院专业：通信工程指导教师：符茂胜指导时间: 2014.12.22-2014.12.28 姓名（学号）承担任务艾洲（2012014001） MATLAB程序编写与调试、文档编写、资料搜集王玉贵（2012014035） PPT制作、文档编写、资料搜集余文正（2012014040 PPT制作、文档编写、资料搜集宁文静（2012014025）文档编写、资料搜集刘安邦（2012014020）文档编写、资料搜集汪中日（2012014031）文档编写、资料搜集指导教师评价意见成绩目录一、背景 1 二、设计目的 1 三、设计基本原理 2 1.说话人识别的分类 2 2.说话人识别的基本原理和系统结构 3 四、模式匹配与特征提取 4 1.模式匹配使用方法: 4 2.特征提取 5 2.1 常用的特征参数 5 2.2语音的倒谱分析（MFCC）简介 5 2.3 MFCC倒谱系数及其提取算法 6 2.4 求取MFCC系数的具体算法和步骤 8 五、模式识别及算法优化 11 1. GMM模型的基本概念 11 2. GMM模型的参数估计 12 2.1 EM算法的计算 13 3. 算法优化（MFCC中加入能量信息） 15 六、实验代码及设计分析 16 1.实验代码 16 2.设计分析 16 2.1 问题的分析 17 七、实验体会及总结 17 八、参考文献 18 一、背景设计目的说话人识别有几个关键技术:首先是特征选取的问题,从声学或者统计学的角度从声音信号中提取某些特征参数,用这些特征参数来描述说话人的声音特征。其次是识别模型,用机器学习模型去学习、记忆说话人特征,从而达到识别的目的。基于基本说话人识别理论和技术的研究,本文基于Mel倒谱系数(MFCC)语音特征参数,采用人工神经网络作为识别模型,研究设计了一个说话人识别的原型系统。MFCC是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出的优点. 三、 1.说话人识别的分类说话人识别按其最终完成的任务可以分成两类:说话人确认(Speaker Verification，简称SV)和说话人辨识(Speaker Identification，简称SI) 。本质上它们都是根据说话人所说的测试语句或关键词，从中提取与说话人本人特征有关的信息，再与存储的参考模型比较，做出正确的判断。不过说话人确认是确认一个人的身份，只涉及一个特定的参考模型和待识别模式之间的比较，系统只作出“是”或“不是”的二元判决，如下第一幅图所示，可表示为:f(X,i)={0,1 };而对于说话人辨识，系统则需要在一个指定人群当中，确定某测试语音是其中哪一个说话人发出的，有时还要对这个人以外的语音做出拒绝的判别。如下第幅 2.说话人识别的基本原理和系统结构说话人识别本质上是一个模式识别问题，分为训练阶段和识别阶段在训练阶段系统的每个使用者说出若干训练语料，系统对这些训练语料进行数字化处理，根据特征参量建立每个使用者的模板或模型参数参考集。在识别阶段，把从待识别说话人说出的语音信号中提取的特征参量，与在训练过程中得到的参考参量集或模型模板进行对比，根据一定的相似性准则进行决策从而得出识别结果。对于说话人辨识来说，所提取的参数要与训练过程中的每一个人的参考模型加以比较，并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。对于说话人确认而言，则是将从输入语音中提取的特征参量与其声称为某人的参考模板比较，如果两者之间的距离小于一定的阀值，则予以确认，否则拒绝。下图是说话人识别系统的结构框图，它由预处理，特征提取，模型训练，模式匹配，和判决等几个大部分组成。本次试验采用基于MFCC和GMM的说话人辨识系统。说话人识别是沿着两个基础设计四、特征提取 1.模式匹配使用方法: 动态时间归整方法(DTW ) 说话人信息不仅有稳定因素(发声器官的结构和发声习惯)，而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间比对，按照某种距离测度得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间归整说话人辨识系统的性能是与用户数量有关的。因为它工作时把输入测试语音的特征参数与系统所存储的每个合法使用者的参考模型相比较，所以当用户数