利用独立分量分析法提取语音特性.docVIP

下载本文档

0
0
约5.17千字
约 7页
2018-03-17 发布于河南
举报
版权申诉

利用独立分量分析法提取语音特性.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用独立分量分析法提取语音特性

利用独立分量分析法提取语音特性在此文中，我们提出一种新的利用独立分量分析法的讲话的语音特性。独立分量分析方法提供语音信号适合的Gabor-like 特性的基本函数的有效编码。基础函数有些冗余，所以我们利用排列方法选择一些基本函数。基本函数在低频基本矢量到高频基本矢量几乎都是有规律的。这也和人类的实际语音信号在低频段有较多信息是相一致的。这些特性能够被应用到自动语音识别系统中，而这种新的方法比常规的melfrequency cepstral features方法有更快的识别速度。导言语音信号是composed of independent higher order statistical characteristics.独立分量分析方法已经基于higher order statistics从自然的语音信号和音乐声中提取特征向量[1]，[2]。这些特性是时域和频域同时起作用的。然而，没有人类语音的特性被提取用作语音识别。在本文中，我们将叙述从人类语音中提取of Gabor-like features。提取语音特性很像一个有窄带宽度和中心频率的带通滤波器。带通滤波器用数学处理方法设计成有中等大小的中心频率，而他们的带宽也取决于一个特定的数学工具。在听觉特性提取处理中，滤波器的作用就和耳膜的作用一样.在内耳的耳蜗，语音信号引起耳膜上的mechnical的振动。耳膜的不同的局部的振动是对不同频率的语音信号的反应。然后在听觉中基于特征处理的每个带通滤波器都耳膜的频率特性为模型。另外一方面，在这篇文章中摆列基本矢量反映输入语音统计特性比其他滤波的方法都好。对于有时的结构设计，提取特性系数矢量被用于行列基本矢量中。最后，对ICA-based features识别速率与mel-frequency cepstral coefficients (MFCCs)做一个对比。用ICA提取语音特性为了从语音信号中提取独立分量特性矢量，ICA算法应用了很多人类的语音片断。一个ICA网络是为了获得独立分量u从语音片断x中，还有从x中用顺序分量矩阵W取出基本函数系数u。ICA假设x是独立分量u的线性混合。如果A代表W的逆矩阵那么A的列表示x的基本特性矢量。为了提取基本函数一必须利用混合矩阵A或者分离矩阵W，所以我们用混合矩阵W。图一：基本向量ICA网络图已知的准则是基于最大互信息量H（y），可以表示成[3] (1) （2）这里p（u）代表语音信号的近似概率密度函数，。这里g（u）是一个非线性函数，它近似于语音信号u的积累分配函数[3]。自然梯度被引入来改善收敛速度，特别是这种方法不要求逆矩阵W，还提供了一下的规则：（3）这里是源信号的概率密度函数，被叫做score function. 用已经知道（3）式的规则，W被反复用梯度上升的方法校正只到达到收敛，让我们令N是随机发生语音信号片断的尺寸。图一所示的基本向量工作网络图。ICA网络是composed输入N和输出N，N基本向量是由矩阵A（）从N中产生的。 SELECTION OF DOMINANT FEATURE VECTORS 为了语音识别，我们可能要从基本向量N中选择主要特征向量。ICA算法从繁多的输入信号中找出独立分量，可能这样的结果时会有多余的分量混在其中。为了减少这种分量，几个技术已经被提出[5]。图形二：（a）规则的非混合矩阵W列向量，（b）频谱在本文中，基本向量在语音信号和基本向量系数的可变性中的贡献是要被尊重的。尊重的意思就是基本向量在语音信号中的强大作用，能表示基本向量的重要关系。因此，从基本向量N规责的，M的主要特征能被选择出来。可变性表示了基本向量系数的变化，而这就是基本向量和语音信号识别的重要关系的表现。图4（a）所示的基本函数重先排序，（b）表示相应的基本向量的系数系数可变性。One can see those two ordering methods provide almost same basis vector order and basis vectors after about 30th are negligible in both contribution and variability. The obtained M feature vectors constitute the M-channel filter-bank, and provide a spectral vector every time frame. 图3：（a）基本向量的排列（b）频谱