- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
--(完美WORD文档DOC格式,可在线免费浏览全文和下载)值得下载!
研究语音识别技术必知的声学特征
祁慧慧|创建时间:2011年07月27日 16:13|浏览:160|评论:0
标签:
【导读】语音声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。本文详细介绍了语音识别技术研究者必知的声学特征。 语音识别技术中,声学特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。
在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本、性能、响应时间、计算量等。因此,掌握语音识别常用声学特征是每一个语音识别技术研究者必备的专业技能之一。
线性预测系数LPC
线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
倒谱系数CEP
利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。
Mel倒谱系数MFCC和感知线性预测PLP
不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
MFCC的计算
首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。
非特定人语音特征 VS 特定人语音特征
非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。 文章为作者独立观点,不代表阿里巴巴以商会友立场。转载此文章须经作者同意,并附上出处及文章链接。
语音识别系统技术原理剖析
祁慧慧|创建时间:2011年07月19日 13:35|浏览:235|评论:0
标签:
【导读】根据语音识别实际应用中的不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论哪种语音识别系统,其基本原理和处理方法大体相同。 语音识别原理
语音信号输入之后,预处理和数字化是进行语音识别的前提条件。其中,预处理主要是进行预滤波,保留正常人的300~3400Hz的语音信号;数字化是要进行A/D转换及抗混叠等处理;特征提取是进行语音信号训练和识别必不可少的步骤。
能够体现语音信号特征的参数包括:
(1)基于LPC的倒谱参数;
(2)Mel系数的倒谱参数;
(3)采用前沿数字信号处理技术的特征分析手段,如小波分析、时/频域分析、人工神经网络等。
本文采用基于LPC的倒谱参数表示方法,提取出的特征值存入参考模式库中,用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分,由待识别人的语音经过特征提取后,与系统训练时产生的模板进行匹配,在说话人辨认中,取与待识别语音相似度最大的模型所对应的语音作为识别结果,这就是语音识别的整个过程。
语音识别技术从应用类分为特定人语音识别和非特定人语音识别。
特定人语音识别技术是针对指定人的语音识别,其他人的话玩具不识别,应用模式是使用前需要指定人的语音训练过程,一般按照玩具提示训练2遍语音词条,然后就可以使用了;非特定人语音识别是不用针对指定的人的识别技术,不分年龄,性别,只要说相同语言就可以,应用模式是在产品定型前按照确定的十几个语音交互词条,采集200人左右的声音样本,经过我们的PC算法处理得到交互词条的语音模型和特征数据库,然后烧录到我们的芯片上,应用我们芯片的
文档评论(0)