基于rbf神经网络的汉语语音非线性预测模型.docxVIP

下载本文档

2
0
约5.17千字
约 5页
2023-08-25 发布于广东
举报
版权申诉

基于rbf神经网络的汉语语音非线性预测模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于rbf神经网络的汉语语音非线性预测模型 1 语音信号非线性预测模型随着对混沌理论的深入研究，非线性动态分析理论和处理方法逐渐形成。研究者应用混沌、分形等非线性理论对语音信号进行非线性特征机制的建模研究,再采用小波及神经网络等非线性的处理方法对语音信号进行预测、逼近、降噪、编码、识别等处理,并取得了一系列成果[1~3]。国内外研究者已经将各种不同的神经网络应用于语音信号的非线性建模,构造出不同的非线性预测器,取得了一定的进展,比如文献提出语音长时线性相关就是短时非线性相关,在预测阶数较低并且对语音信号不进行长时预测的情况下,非线性预测比线性预测有更高的编码性能;文献作者使用前向非线性预测的结果表明,与BP神经网络(Back Propagation Neural Network,BPNN)相比,递归神经网络(Recurrent Neural Network,RNN)不仅有更好的对长时相关性的预测能力而且对嵌入维数有更好的鲁棒性;文献研究了应用于语音信号非线性建模的RBF神经网络的各种训练方法,比较了各算法性能差别,并对语音信号非线性及线性建模进行性能比较;文献提出一种带有反馈单元的动态小波神经网络(Dynamic Wavelet Neural Network,DWNN)并基于它构造出非线性预测器,预测性能良好而且计算复杂度相对较低。但是汉语语音信号是否也具有混沌性,如果存在混沌性,如何结合汉语语音信号的混沌性并应用神经网络构造出具有预测性能良好的非线性预测模型,而且基于该预测模型的语音编解码系统能否更好的恢复出原始语音,这一直是一个重要的研究方向,因此本文将详细地讨论汉语语音信号产生混沌的机制及其在预测中的应用。另外,音素是从音质角度及自然属性划分出来的最基本的、最小的并且是不可分解的组成单位,也是分析语音信号的基础,所以本文是基于音素对汉语语音信号进行分析。 2 语音信号的非线性特性 2.1 uf064研究任意混沌时间序列的判定、分析以及信号预测都是在重构的相空间中进行,因此相空间重构是进行混沌时间序列研究的关键。对于语音信号而言,相空间重构是从语音信号时间序列提取动力学信息的重要方法,也是分析语音信号动力学系统的第一步。语音信号是一维时间序列:x(t)(28){x1(),x(2),x3(),(43),x(L)},根据Takens嵌入定理,采用延迟坐标法对语音信号进行相空间重构,即X(i)(28)[x(i),x(i(10)uf074),x(i(10)2(9)uf074),(43),x(i(10)(m-)1(9)uf074)],(1uf0a3iuf0a3N),其中N为相点总数,N(28)L-(m-)1(9)uf074,uf074为延迟时间,m为嵌入维数。如何选取合适的重构参数—延迟时间uf074和嵌入维数m是进行相空间重构的关键。目前有两种主流观点:一种认为两者不相关,求解uf074的方法有自相关法、互信息法、复自相关法等;求解m的方法有虚假近邻法(False Nearest Neighbors,FNN)、摆动乘积法,Cao法等。另一种认为两者相关,如时间窗口法、C-C算法等,可以同时计算出延迟时间和嵌入窗。但这些算法各有各的优势和缺陷。由于自相关法求解uf074算法适用于小数据组,简单并易于实现,但它并没有考虑系统的非线性因素;互信息量法适用于大数据组,尽管考虑了系统的非线性问题,但因其计算量很大,计算速度较慢不宜采用;C-C算法能同时求解出uf074和m,计算量适中,而且它能保持系统非线性特性。因此本文采用经典的FNN算法求解m及采用C-C算法同时得到的uf074和m,将部分较有代表性的结果列于表1。本文实验用的汉语语音信号是采用手动切割的方式切出33个汉语语音音素,获得它们的时间序列的wav文件,采样率是8k Hz,量化比特是16bit。 2.2 语音音素的时延重构图观察表1得出以下结论: (1)绝大部分音素的LE是大于0,说明汉语语音系统作混沌运动。 (2)音素u、n的LE值是负值,但接近于0;in、ing和m的LE值是正值,但也接近于0。 LE为0说明它们的时延重构图应该是极限环,图1列出较有代表性的音素的时延重构图,tau为延迟时间,x[n]为原始语音信号,x[n+tau]为时间延迟以后的信号,观察图1得出音素in、m的时延重构图是极限环。 (3)大部分塞音、塞擦音和擦音的LE比较大,在1~3之间取值;元音的LE比较小,表明辅音的混沌程度高于元音的混沌程度。观察图1所示音素的时延重构图能得出如下结论: (1)每个汉语语音音素的时延重构图的形状与它的延迟时间和嵌入维数有关,不同类型的汉语语音音素有不同的时延重构图。 (2)浊音具有准周期性,它的时延重构图表现为闭合环面;而清音不具有准周期性,那么它的时延重构