- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2007年上海大学硕士学位论文 2
(4)按照识别方法分有:模板匹配法,概率模型法等。所谓的模板匹配法是
指把不同内容的语音转换成不同的模板,并基于对模板匹配的相似性度量进行语
音识别的方法。而概率模型法主要是指利用隐马尔可夫模型的概率参数来对似
然函数进行估计判决并得到识别结果的方法。目前还有基于人工神经网络,支持向量机等方法的语音识别技术。
§1.1.2 语音识别系统的构成
语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用系统软
件。硬件平台可以是一台个人计算机或工作站,操作系统是Unix或Windows系
统。由于对语音识别的要求来自于不同的领域和部门,因此对语音识别应具有的
性能和指标提出了不同的要求。尽管设计和实现的细节不同,但语音识别系统所
采用的基本技术是相似的。语音识别的步骤可以分两步。第一步是根据识别系统
的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方
法所需要的语音特征参数,这些参数作为标准模式由机器储存起来,形成标准模
式库,这个语音参数库称为“模板”,这一过程称为“学习”或“训练”。第二步
就是“识别”或“测试”阶段。语音识别本质上是一种模式识别的过程,其基本结
构,主要包括预处理,特征提取,特征建模(建立参考模式库),模式匹配(相似
性度量)和后处理等几个功能模块,其中后处理模块为可选部分。
典型的语音识别基本框图14】为:
输厶语毫压亟亘丑—砸茧亘垂因识别屯垂亘亘虱—●量至蔓卜一识别结果
呦趾唯葫
图1.1语音识别基本框图
一个语音识别系统主要包括训练和识别两个阶段。无论是训练和识别,都需要首先对输入的原始语音进行预处理,并进行特征提取。下面具体说明各个模块的功能。
预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结
2007年上海大学硕士学位论文 3
束位置,并进行语音分帧以及预加重等处理工作。
特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反
映信号特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的
特征参数有幅度、能量、过零率、线性预测系数、倒谱系数、Mel倒谱系数等。特
征的选择和提取是识别系统构建的关键,此后所有处理都是建立在特征参数之
上,一旦特征参数不能很好地反映语音信号的本质,识别就不能成功。
在训练阶段用户输入若干次训练语音,系统经过上述预处理和特征提取后得
到特征矢量参数(序列),通过特征建模模块建立训练语音的参考模式库,即建
立语音声学模型,或者已在模式库中的参考模式作适应性修正。声学模型是语音
识别系统中最底层的模型并且也是识别系统中最关键的一部分。
在识别阶段,将输入语音的特征矢量参数和参考模式库中的模式进行相似性
度量比较,将相似度量最高的模式所属类别作为识别的中问候选结果输出。
§1.1.3 语音信号分析及特征提取
语音识别中对语音信号的分析从传统的FFT分析、线性预测分析和倒谱分析
一直发展到今天的小波分析、神经网络技术,已取得了很大的发展。语音识别的
首要步骤是特征提取。特征的选择对语音识别的效果是至关重要的。选择的标准
应该体现对异音字之间的距离要尽可能大,同音字之问的距离尽可能小。此外,
还要考虑特征参数的计算量。
语音信号的特征参数主要有:
1.短时能量磊
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语
音信号图中可以看到语音信号幅度随时间有相当大的变化,特别是清音段的幅度
一般比浊音段的幅度小很多,语音信号的短时能量给出了反映这些幅度变化的一
个合适的描述方法。
语音信号s(n)的短时能量定义为:
n+^r一1
晶=∑【s(m)u∽一m)】2 (1.1)
式中um)为窗函数,这里窗长Ⅳ的选择对于反映语音信号的幅度变化起着决定的
作用。如果Ⅳ很大,它等效于很窄的低通滤波器,此时R随时间的变化很小,不
2007年上海大学硕士学位论文4
能反映语音信号的幅度变化,信号的变化细节就看不出来;反之,Ⅳ太小时,滤
波器的通带变宽,B随时间有急剧的变化,不能得到平滑的能量函数。因此,窗
口长度的选择应合适。短时能量的主要用途有:
(1)区分清音段和浊音段。语音为浊音时的短时能量值比清音时大很多,根
据语音信号短时能量值的变化,可大致判定浊音变为清音和清音变为浊音的时
刻。
(2)在高信噪比的语音信号中,可以用来区分有无语音。此时,无语音信号
的噪声能量很小,而有语音信号时短时能量值显著地增大到某一数值,由此可以
区分语音信号的开始和终止点。
但是,既值对于高电平信号非常敏感,因此在实际使用时需加以处理,例如
取对数等,以便将数值限制在一定范围内。
2.短时平均过零率磊
过零率分析是语音时域分析中最简单的
原创力文档


文档评论(0)