声纹技术的研究.docVIP

下载本文档

16
0
约3.64千字
约 9页
2018-10-15 发布于福建
举报
版权申诉

声纹技术的研究.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

声纹技术的研究

声纹技术的研究　　摘要：分类在说话人识别中的应用对于提高系统响应时间有非常重要的作用，对基频和共振峰进行研究，基频可以用于区分男声和女声，依据共振峰的幅值则可以区分成人和儿童，将这种分类方法应用于说话人识别中可以大大缩短识别时间。　　关键词：说话人识别；分类；基频；共振峰　　中图分类号：TN912.3 文献标识码：A 文章编号：1671－7597（2011）1110177－02 　　0 引言　　语音是人类日常生活中用于交流的最重要的一种方式，语音信号包含的信息异常丰富，如内容、话者身份及情绪等。说话人识别技术是一种生物认证技术，利用说话人的声音信号同预先提取的说话人语音特征相比较，从而来确定或鉴别说话人身份。说话人识别不同于语音识别，两者识别的目的不同。语音识别是为了提取语音信号中包含的语义信息，在识别过程中应尽可能地将不同人说话的差异归一化；而说话人识别则相反，是忽略语音信号中的语义信息，突出包含在语音信号中的话者的个性特征，强调的是不同人之间的特征差异。说话人识别按其识别任务可分为两类：说话人辨认和说话人确认。本文所提到的说话人识别是说话人辨认，即是判断一段语音是哪一个人所说，是多对一的问题，而不是确定一段语音是否是某个人所说[1][2]。　　每个人都有自己的发音器官，在声带和声管形状上存在着差异，在后天环境的影响下也会存在行为差异，如讲话时发音习惯的差异，包括方言、土语、抑扬顿挫等。这些差异都以复杂的形式反映在说话人语音的波形中，使得每个人的语音都带有强烈的个人色彩，这就是对说话人进行识别的客观保证。语音信号中包含的声纹特征、情绪、健康状况等都可用于说话人识别。　　在说话人辨认中，随着注册说话人数的增加，一次辨认花费的时间会随之增加。很明显，一次识别需要将待测试的语音与所有说话人的语音模型进行一一匹配，然后找出与测试语音距离最近的话者模型所对应的说话人作为识别结果。这样，随着注册的说话人模型数越多，一次匹配所花费的时间越长，当注册人数达到一定数量时，系统就很难做出及时响应，这种情况下即便识别率再高也没有实用性。分类技术可以很好的解决这个问题，将说话人按一定方法分类，比方将说话人按男女分类，这样就可以缩短一半的时间。　　1 特征参数分类方法　　1.1 用基频分类　　基音是发浊音时声带振动引起的周期性，基音频率是用于描述语音激励源特征的一个重要参数。基频的变化周期一般从50Hz到500Hz。男声一般是50Hz～300Hz，女声和儿童一般是100Hz～500Hz，每个人的不同声带结构而导致有不同的基频，理论上基频可以作为说话人识别的有效参数，但是因为基频的范围比较小，而且不同人之间的差距也不多，更重要的是基频受很多因素的影响，如情感、音调等，因而要得到精确的基频值很困难。　　自进行语音信号分析研究以来，基音提取一直是一个重要的研究课题，但语音信号变化复杂，受声道影响及具有丰富的谐波成分，虽然目前已经提出很多方法，但是都有局限性，都不能代表不同说话人特点，不能适应不同要求和环境。目前用基频进行说话人识别，识别率很低。但是一般男声的基频比女声的要低，所以作为分类是很好的一个特征参数。　　提取基频的方法有很多种。大致可以分为三类，波形估计法、相关处理法和变换法[4]。本文采用变换法提取基音周期，即将语音信号变换到倒谱域，利用同态分析方法将声道的影响消除，得到属于激励部分的信息，进一步求取基频。　　只有浊音才有基音周期。发清音时，声门激励是能量较小，频谱均匀分布的白噪声；发浊音时，声门激励是有一定周期的冲击序列，这一周期即为基音周期。　　一个周期冲激的有限长度序列，其倒谱也是一个周期冲激序列，如下：　　　　　　其中，N是正整数，是振幅因子，是基音周期。　　倒谱域上周期不会发生变化，且振幅随着i值的增大而衰减，衰减速度比时域上快[5]。这样便可用倒谱法提取基频并效果比较好。　　本文实验环境是Windows XP系统，MATLAB7.0开发平台，实验所用语音数据采用Cool Edit Pro进行录制，采样频率16000Hz，采样精度16位，单声道，均说普通话，每人录7句话，分别有元音、辅音、句子、英文、数字。　　表1倒谱法提取的语音信号的基频　　　　实验结果表明，不论说话人说话内容是什么，女声的基频在200～350Hz之间，男声在100～200Hz之间，并且女声和男声都是按年龄从小到大，可见基本上年轻的基频比年长的高，由此可以以200Hz为界，将说话人分为男声和女声两类，在进行说话人识别时，先提取语音的基频，然后看结果是200Hz以上还是以下，然后再进一步进行模型匹配或另外的分类判断，这样就可以节省一半的识别时间。　　1.2 用共振峰分类