- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别-基于RM的声纹识别系统
项目综述
基于ARM的声纹识别系统
一.声纹识别的基本原理
声纹识别的工作过程一般可分为两个阶段:训练阶段和识别阶段。在训练过程中,系统提取出最能代表说话人个性特征的特征参数,并对所提取出来的特征参数进行学习训练,建立声纹模板或语音模型库。在识别过程中,根据系统已有的声纹模板或语音模型库对输入用语音的特征参数进行模式匹配,判别,得出结果。
三.语音信号的倒谱特征分析的主要理论方法
根据所分析的参数类型,语音信号分析包括两个方面:时域和变换域。时域直接对语音信号的波形进行分析,得到信号幅度,能量,过零率及自相关函数等。变频域可以使信号某些在时域上无法表现出来的特征变得特别明显。最常用的是傅里叶变换,为了能够分析处理非平稳信号,提出短时傅里叶变换。
同态信号分析处理:语音信号是由激励信号源和声道响应相卷积的结果,是非加性信号,不能用线性系统来处理。同态信号分析就是将非线性转化为线性问题来处理,便于分析。
同态分析的基本思想就是对语音信号解卷积,从而将声门激励和声道特征分离
开来,分离的方法是对语音信号在频域上取对数,再反变换到时域中。倒谱(Cepstrum)就是从同态分析处理中引出来的概念。“倒谱特征”利用了对语音信号做适当的同态滤波可以将激励信号和声道信号加以分离的原理,它是用来表征不同说话人最有效的个性特征之一。
设语音信号为s(n),声门脉冲激励为e(n),声道响应为v(n),根据语音信号产生模型,语音信号为声门激励与声道响应的卷积,通过以下运算,可以得到倒普:
在实际应用中,Z变换难以实现,所以常常忽略倒普运算中的虚数部分,用快速傅里叶变换FFT来做近似计算
经过同态处理后,s(n)的高频部分代表了激励的特性,而低频部分代表了声道的特性,容易被分离开来。
三.信号的预处理
3.1 语音的采样和量化(AD转换)
对声音信号进行数字化。语音经音频采集设备如麦克风,进行声电转化变为模拟信号,然后经由A/D进行采样,量化变为数字信号。
一般采用8kHz的采样频率。降低采样率可以减少数据量,这在嵌入式系统中尤其珍贵。当采样率从16KHZ降到8KHZ,所造成的识别率下降不超过1%,但可以节省语音识别前端50%的动态存储空间,减少运行时识别前端25%的计算量。综合以上因素,在实际采样中我们都采用8KHZ采样率。
如果是对已经录好音的文件进行处理,实际上就跳过了采样与量化这两步。
3.2 语音信号的预加重
800Hz高频部分会出现一定的衰落。预加重就是加强高频部分,使信号的高频部分变得平坦,便于进行频谱分析或者声道参数分析
用一阶数字滤波器实现:Hz=1-μz-1
其离散表达式为yn=xn-μx(n-1)
3.3 分帧(短时分析方法)
此时的语音信号实际上是一个时变信号,而它只有在短时间内才能表现出准平稳特性。我们假设语音信号在l0ms--30ms短时间内是平稳的。每一个短时间段称为一帧,为了从语音信号中提取N帧特征数据,我们需要采用有限长度的窗函数序列w(n)。
分帧其实就是加矩形窗。
3.4加窗
为了减少语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过度到零,就要使语音帧乘以一个窗函数。理想的窗函数的频率响应要求主瓣无限狭窄且滑旁瓣(即无频谱泄露),但这种窗函数在实际工程中不存在。根据不同的作用,常采用以下几种窗函数来逼近理想的频率响应。一般常用矩形窗和汉明窗。
3.5端点检测(时域)
语音端点检测一般步骤如下:
1.将语音信号分成相邻有重叠的语音段,称为语音帧;
2.采用一种判决准则,例如门限判决或模式分类,来检测语音帧和非语音帧;
3.对有效的语音帧进行相应的标识,得到有效语音段的全部区间;
一般常采用两种时域特征:短时能量和短时过零率,通过设定它们的门限进行检测。
短时能量有以下几个方面的应用:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大的多:其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等等。在说话人识别中,主要用于对有声段和无声段进行判定。
短时过零率则是指一帧语音信号中波形穿越零电平的次数。由于语音信号包括有静音段和有效语音段,静音段的由于只包含随机噪声,其波形变化大小较缓慢,而有效语音段由于有声带的振动及气流在口腔中的摩擦、冲击等影响,造成波形在幅度上的变化比较剧烈,短时过零率即是用来描述这种变化的剧烈程度。
过零率可以用于判断有语和无语,但很容易受到低频信号干拢而引起误判。为了解决这个问题,可以改为过正负门限,为了进一步提高判断准确率,可以采用多门限过零端点检测算法。
四.特征向量的提取
特征参数提取的目的就是从说话人语音中提取出能够表征说话人特定器官结构或习惯行为的特征参数。
这也是语音识别与声纹识别的差别所在。
文档评论(0)