- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于发音特征汉语声调建模方法及其在汉语语音识别中应用
基于发音特征汉语声调建模方法及其在汉语语音识别中应用
摘 要:
发音特征表征了语音的发音方式信息,能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上,将发音方式划分为19类,并提出利用阶层式多层感知器计算语音信号属于各类的后验概率,作为发音特征。之后,将发音特征与传统的韵律特征一起用于声调建模。实验结果显示,加入发音特征后,在三种不同的建模方法下声调识别的准确率提升约5%。将声调模型融入大词表连续语音识别系统后,汉字错误率有了明显的下降。
关键词:语音识别;声调建模;发音特征;阶层式多层感知机分类器
0 引言
与英语等西方国家语言不同,汉语是一种带声调的语言。声调对于汉语的语音识别具有重要的作用。尤其是待识别音节的发音相同或者相似时,传统的语音识别系统会产生更多识别错误。但是,对于发音相同或相似的音节,声调能够提供重要的区分性信息,从而辅助语音识别系统达到更好的识别效果。声调对于音节的区分主要体现在两方面:其一,在汉语中,不同的汉字会对应相同的发音,对于具有相同音节的不同汉字,声调是区分它们的唯一属性;其二,即使对应不同的音节,大量汉字的发音之间仍很相近。例如,汉字对应的音节包含了声母、韵母两部分,当音节中声母部分不同而韵母部分相同时,声调信息也是区分这些音节的重要属性。汉语语音识别实验表明,以上两种情况下,传统的语音识别方法对相同或相似的音节难以区分,导致识别结果中音节间的替换错误在全部错误中占了很大的比例。因此,在传统汉语语音识别的基础上,加入更具有区分性的声调信息,从而更准确地区分相同及相似的音节,对于提高汉语语音识别的准确率是十分必要的,也成为近些年来汉语语音识别领域里的研究热点[1-4]。
将声调信息应用到连续语音识别系统中时,按照声调模型与传统声学模型结合方法的不同,将声调建模划分为两种不同的方式:隐式的声调建模方式和显式的声调建模方式[3]。隐式的声调建模方式首先获取语音帧层面上的声调相关特征,然后将其与传统语音识别系统常用的谱特征一起用于模型训练以及语音识别。与隐式建模不同,显式的声调建模方式强调根据声调特征,训练独立于声学模型的声调模型。在语音识别过程中,声调模型的概率得分既可以在一遍搜索时加入路径的总得分中,也可以对生成的最优的N条路径(Nbest)进行重新打分,根据重打分的结果对Nbest列表重新排序。研究表明,由于声调的持续时间较长(一般等同于对应音节的时长),并且声调的模式主要跟对应音节的基频轮廓有关,因此,对声调单独建模能够更有效地利用声调的这种超音段信息[5]。与使用基于帧层次声调特征的隐式声调建模方式相比,显式的声调建模方式更有利于提高语音识别系统的性能。
显式的声调建模是将声调模型概率得分与传统声学概率得分加权后集成一起得到路径总得分。因此,为了提高连续语音识别系统的性能,一方面要对声调模型与声学模型的集成方法进行研究,另一方面还要对声调建模方法进行研究,使得声调模型本身的识别率足够高,从而能够起到纠正仅采用声学模型时产生的识别错误的作用。对于声调集成方法,文献[2]提出利用区分性训练的方式对声调集成时的声学模型权重系数和声调模型权重系数进行优化,取得了很好的效果;对于声调模型,许多研究人员提出了不同的建模方法,常用的声调模型有隐马尔可夫模型(Hidden Markov Model, HMM)[6]、人工神经网络[7]、决策树分类器[8]和支持向量机(Support Vector Machine, SVM)[9],以及最近提出的基于最大熵方法[10]和基于条件随机场[11]的声调建模方法等。
在特征选择方面,声调建模方法大都采用基频的轮廓信息。但是,基频的轮廓容易因上下文的影响而改变,同时也会随着发音单元自身发音方式的不同而变化。对于第一个问题,研究人员提出上下文相关的声调模型来减少协同发音现象对基频轮廓的影响[12];对于第二个问题,相关的研究工作还比较少,文献[13]以梅尔频率倒谱系数(MelFrequency Cepstral Coefficient,MFCC)、基频及其一阶差分为特征,建立了基于HMM的发音单元相关的声调模型。对于同一种声调,如果发音单元不同,则建立不同的声调模型。这种声调模型实际上可以看作是带声调的声学模型。这种声调模型虽然在解决发音方式对基频的影响问题上取得了较好的效果,但也存在一些不足之处:首先,这种声调模型的数量较多,特别是当发音单元采用上下文相关的结构时,需要训练的声调模型数目的量级更是达到了105,增加了模型训练的复杂度;其次,由于模型结构与一般的基于HMM的声学模型基本相同,所用特征的维数也超过了10维,所以算法的时间复杂度较高;最后,这种声调建模方法与隐式的声调建模类似,都是把频谱
文档评论(0)