说话人识别专业训练.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
说话人识别专业训练

燕 山 大 学 专 业 训 练 说 明 书  PAGE 21 目录 第一章 引言2 第二章 说话人识别系统的概述2 1.说话人识别的基本原理2 2.说话人识别系统图3 3.说话人识别系统的分块介绍3 4.训练模型12 5.识别模块15 实验结果16 应用程序18 心得体会28 参考文献 第一章 引言 随着世界信息化进程的日新月异,人们在享受方便快捷信息的同时,对个人信息安全性的要求也日益提升。传统以密码为特征的身份认证技术易伪造、易丢失的弊端日益显露出来,越来越难以满足用户在高安全性和长安全性上的要求。在此基础上,基于生物特征识别的身份认证技术日益成为人们关注的焦点。目前,较为常用的生物特征认证方法有三种,分别是基于指纹、声纹、人脸的认证技术。 其中,声纹识别具有很大的优势。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人特征色彩,这使得通过分析语音信号来识别说话人成为可能。 说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。 第二章 说话人识别系统的概述 一.说话人识别的基本原理 要实现说话人识别,应解决如下基本问题: (1)语音信号的预处理和特征提取, 即提取能够有效表征说话人个性特征的参数。实际上现在采用的特征都是从语音信号模型中得到的, 它们既包含说话人的语音特征,又包含说话人的个性特征,并且相互交织在一起, 以复杂的形式存在于语音参数中,目前还没有建立起准确分离和提取这两种特征的技术。 (2)说话人模型的建立和模型参数的训练。这包括模型结构的表示和参数估计算法。 (3)测试音与说话人模型的匹配距离计算。实际上,采用的说话人模型结构对应于说话人识别的不同方法。随着技术的发展, 说话人识别的方法不断出现,包括矢量量化, 模板匹配法,隐马尔可夫模型,高斯混合模型, 人工神经网络方法等。 (4)识别或判决策略。根据匹配距离的计算结果判决说话人是否是所声称的说话人 (说话人确认)或说话人到底是谁(说话人辨认)。 说话人识别的基本原理是为每一个说话人建立一个能够描述这一说话人个性特征的模型 。在目前话音特征与说话人个性特征还未很好的从语音特征中得到分离的情况下,为每一个说话人建立的说话人模型实际是说话人的语音特征模型。在进行说话人识别时,取与测试音匹配距离最小的说话人模型所对应的说话人作为说话人识别的结果。 二.说话人识别系统图 说话人识别系统分为两个阶段:训练阶段和识别阶段。在训练阶段,系统根据每个使用者说出的若干训练语句建立相应的模型或模型参量参考集;而在识别阶段,在待识别人说的语音信号中导出的参量,要与在训练过程中得到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定。对于说话人辨认来说,所提取的参量要与训练过程中的每一个人的参考参量加以比较,并把与它距离最近的那个参考量所对应的使用者辨认为是发出输入语音的说话人。 说话人识别系统图如图1: 图1 说话人识别系统图 我们可以将一个说话人识别系统分成如下几个模块:预处理模块、特征提取模块、训练模块和识别模块等。 三.说话人识别系统的分块介绍 1.预处理模块 语音信号的预处理包括:预加重、端点检测、分帧和加窗。 预加重 对于输入的语音信号,首先用低通滤波器滤掉高频部分以防止还原信号时在时域内产生混叠干扰,然后用高通滤波器抑制50HZ的电源干扰,这就是抗混叠失真滤波。依据Nyquist采样定理,用不低于2fa的采样频率对原始模拟信号采样,经过A/D转换得到数字信号。 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800HZ以上,按6dB/倍频程跌落,所以求语音信号频谱时,频率越高相应的信号成分越小,高频部分的频谱比低频部分难求,为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带内,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重一般用具有6dB/倍频程的

文档评论(0)

ccx55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档