- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
龙源期刊网
语音信号特征参数的提取
作者:白瑜
来源:《科技传播》2011年第24期
摘要语音识别是指让计算机通过识别和理解把语音信号转变为具有人类听觉功能的机
器,以便可以直接听懂人讲的话,并且做出相应的反应。语音识别技术是语音信号处理领域的
一项关键技术,近年来正逐步成为信息技术当中人机接口部分的关键技术,语音识别技术和语
音合成技术的有机结合,使人们可以弃用键盘,通过语音命令直接进行操作。语音识别就是利
用智能设备自动识别语音信息的技术,有广义和狭义之分。广义上是指识别出语音中对于我们
“感兴趣的内容”。狭义上的语音识别技术指的是以较高的准确率识别出语音信号所表达的意
思。
关键词语音信号;语音识别;特征参数
中图分类号TN912文献标识码A文章编号1674-6708(2011)57-0228-02
语音1学概述
汉1.1语的音素、音节和音调
我们发现依据人类声音产生的机制,由于激励方式的不同会形成清音和浊音两种不同的语
音。由这两种语音又可以组合成两种不一样音素:元音及辅音。构成语音的最小单位是音素。
元音由不相同的口腔形状发声而形成,辅音的形成由发声的部位以及发声的方法决定。
音节是构成汉语的最小单位。我们所说的音节指的是一个元音加上一或两个辅音所构成的
音素的组合。汉语当中包括以下4种音节,即:元音、元音+辅音、辅音+元音,辅音+元音+
鼻音。一般汉语可以简单划分为声母+韵母两个部分。音节前部分的辅音称之为声母,元音和
元音后面有时候出现的鼻音称之为韵母。汉语可认为是一种声调语言,根据声调的不同所表达
的意思很可能完全不一样,汉语共有阴平、阳平、上声及去声四种声调。而声调的变化可以看
成浊音周期的变化。声调曲线从韵母起始点至韵母的终止点。
语音信号的数1.2学模型
语音的产生是因为声道激励发生共振,因为发声过程中声道是振动的,所以能够用一个时
变线性系统来描述。可以用如图1所示描述语音生成模型。
由图1可知一个完整的语音信号模型由激励模型、声道模型、及辐射模型三个子模型串联
而成。激励模型由浊音激励与清音激励组成。对清音部分来说,激励信号等同于白噪声,而对
于浊音部分来说,因为声带在不断地张开与闭合,所以会有间隙性的脉冲波产生。共振峰模型
龙源期刊网
是当前广泛使用的一种声道模型。声道的终端是人类口与唇,速度波通过声道输出,然而语音
信号是一种声压波。
语音信号的前端处理2
为了得到我们所需要的信号,须先对模拟语音信号进行数字化,接着进行预处理与加窗。
语音信号的数字化2.1
为将模拟语音信号转变为数字信号,先对信号进行采样与量化。在采样与量化之前,须进
行语音信号的预滤波,其目的在于:第一,滤除高频噪声;第二,防止50Hz的工频干扰。
语音信号的预处理与加窗2.2
因为语音信号的平均功率受到鼻辐射以及声门激励的很大影响,因此在语音信号频谱的求
取时,随着频率的增高相应的响应成分越小,也就是说高频部分频谱比起低频部分来不够精
确,为此我们需要对信号进行预加重。为了平滑频域信号,使得信号处理的后面阶段对有限长
响应不那么敏感,通常情况下让数字语音信号通过一个低阶的系统。目前广泛使用的是固定的
一阶数字滤波器,即
(zH)=1-az-1
式中a为预加重系数,通常取值0.95左右。
因为语音信号的特性是随时间变化的,而非平稳过程,但由于人的发音器官的肌肉运动速
度比较慢,因此可以认为语音信号是个局部的短时平稳的信号。因此,我们对对语音信号进行
分帧加窗的处理。通常情况下语音信号帧长取为10ms~30ms,每秒帧数约为33~100,分帧可
以是连续的,有可以是交叠分段的,在语音信号的分析当中常用“短时分析”来表述。我们一般
采用窗函数来乘语音信号,常用的窗函数是Hamming窗。
Hamming窗函数是:
语音信号的端2.3点检测
端点检测指的是找出语音信号中的各段落的起始点以及终止点的位置。语音信号的时域处
理方法包括:短时平均幅度、短时能量、短时过零率以及短时自相关。端点检测一般要用到语
音信号的短时能量以及短时平均过零率两中参数。
文档评论(0)