- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于说话人声音识别的技术研究语音识别技术
基于声音的 人身份 技 研究
通信 1203 班
成 :艾洲、刘安邦、汪中日
余文正、王玉 、宁文静
xx-12-28
目背景
伴随着全球化、网 化、信息化、数字化 代的到来,我 高可靠性的身份 技 与身份 技 的需求也日益增 。
在生物学和信息科学高度 展的今天,根据人体自身的生
理特征 ( 指 、虹膜? ) 和行 特征 ( 声音? ) 来 身份的生物技 作 一种便捷、 先 的信息安全技 已 在 生活中得到广泛的 用,它是集光学、 感技 、 外 描和 算机技 于一身的
第三代身份验证技术, 能满足现代社会对于身份鉴别的准确性、 安全性与实用性的更高要求。
而语音是人的自然属性之一,由于说话人发声器官的生理
差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说话人成为可能。
设计总体框架
语音库的建立
声音样本采集
2.1 特征参数提取
2.2 识别模型建立
语音识别测试
梅尔倒谱系数( MFCC)简述
在话者识别方面,最常用到的语音特征就是梅尔倒谱系数 ( MFCC)。因为,根据人耳听觉机理的研究发现, 人耳对不同频率的声波有不同的听觉敏感度,得出从 200Hz到 5000Hz的语音信号对语音的清晰度影响最大。
所以,人们从低频到高频这一段频带内按临界带宽的大小由密到
疏安排一组带通滤波器, 对输入信号进行滤波。 将每个带通滤波器输
出的信号能量作为信号的基本特征, 对此特征经过进一步处理后就可
以作为语音的输入特征。 由于这种特征不依赖于信号的性质, 对输入
信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,
这种参数比基于声道模型的“线性预测系数 LPC”相比更好,更符合
人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
MFCC 倒谱特征提取流图
1.
预加重
预加重处理其实是将语音信号通过一个高通滤波器:式中μ的值介于 0.9-1.0 之间,我们通常取 0.97 。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用
同 的信噪比求 。 同 ,也是 了消除 生 程中声 和嘴唇的效 ,来 音信号受到 音系 所抑制的高 部分, 也 了突出高 的共振峰
分
先将 N个采 点集合成一个 ,称 。通常情况下 N 的
256 或 512,涵盖的 20~30ms左右。 了避免相 两 的 化 大,因此会 两相 之 有一段重叠区域, 此重叠区域包含了M个取 点,通常 M的 N的 1/2 或 1/3 。
通常 音 所采用 音信号的采 率 8KHz或 16KHz,以8KHz来 ,若 度 256 个采 点, 的 度是 256/8000
1000=32ms
3.
加窗
将每一 乘以 明窗,以增加 左端和右端的 性。假 分
后的信号 S(n), n=0,1 ?,N-1, N 的大小,那么乘上 明窗后
W(n) 形式如下:
不同的 a 值会产生不同的汉明窗,一般情况下 a 取 0.46 。
快速傅里叶变换
由于信号在时域上的变换通常很难看出信号的特性,所以通常将
它转换为频域上的能量分布来观察, 不同的能量分布, 就能代表不同
语音的特性。所以在乘上汉明窗后, 每帧还必须再经过快速傅里叶变
换以得到在频谱上的能量分布。 对分帧加窗后的各帧信号进行快速傅
里叶变换得到各帧的频谱。 并对语音信号的频谱取模平方得到语音信
号的功率谱。设语音信号的 DFT为:
式中 x(n) 为输入的语音信号, N
表示傅里叶变换的点数。式中 x(n) 为输入的语音信号, N表示傅里叶变换的点数。
5. Mel 滤波器组
将能量谱通过一组 Mel 尺度的三角形滤波器组,定义一个有 M个
滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤
波器为三角滤波器,中心频率为 f(m),m=1,2,...,M 。M通常取 22-26 。
f(m) 之间的间隔随着 m值的减小而缩小,随着 m值的增大而增宽,如图所示:
三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰
(因此一段语音的音调或音高,是不会呈现在 MFCC参数内,换句话
说,以 MFCC为特征的语音辨识系统,并不会受到输入语音的音调不
同而有所影响)此外,还可以降低运算量。
预加重代码:
len=length(x1);
heigt=0.98;
for i=2:len
x1(i)=x1(i)-heigt*x1(i-1);
end
for i=2:len
x2(i)=x2(i)-heigt*x2(i-1);end
三角滤波器
if (f(m)
fh=20000;
文档评论(0)