基于HTK日语连续语音识别系统建立与研究.docVIP

下载本文档

22
0
约2.94千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

基于HTK日语连续语音识别系统建立与研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HTK日语连续语音识别系统建立与研究

基于HTK日语连续语音识别系统建立与研究　　摘要：本文主要介绍了连续语音识别系统的构建过程，分析了连续语音识别系统构建的方式和采用音素构建连续语音识别声学模型的基本方法。阐述了利用隐马尔可夫工具包搭建的连续语音识别系统，给出了系统评估方法，系统使用日本标准JNAS数据库进行建模并使用北海道大学日本学生的发音进行实验，验证模型的有效性。　　关键词：连续语音识别；音素；HTK；HMM 　　中图分类号：TN912.34 　　1 语音识别系统的特征提取　　图1描述了语音识别系统的一般流程，图中上半部分代表建模过程，下半部分代表识别过程。完整的连续语音识别系统主要包含四个部分：预处理、特征提取、声学模型建立和识别语音信号[1]。声学模型建立主要应用HTK，HTK是专门用于建立和处理隐马尔科夫模型（Hiden Marcov Model， HMM）的工具包，目前在语音识别的应用和研究领域被广泛使用[2]。???别引擎使用Julius开源平台，Julius是一种针对大词汇量连续语音识别相关研究和开发的语音识别引擎[3]。它是基于N元语法（N-gram）和上下文相关的HMM的高性能、双通道解码器软件，可以进行对输入的连续语音进行实时解码。　　图1 语音识别系统框架结构　　预处理主要就是对语音信号进行基本操作，一般先使用公式（1）补偿语音信号中的高频部分，一般μ的取值范围在0.94到0.97之间。　　H（z）=1-μZ-1 （1）　　本系统使用传统的MFCC[4]作为语音特征提取的方法，并在提取MFCC特征的同时引入噪音鲁棒性算法，通过重新编译HTK中的HCopy命令进行噪音鲁棒性的语音特征提取，得到具有提取噪音鲁棒性的连续语音特征参数。　　2 语音识别系统的模型建立　　声学模型是语音识别系统最基本的组成单元和核心部分，使用HMM建立声学模型是目前多数语音识别系统采用的方法。在日语连续语音识别中，采用音素作为声学模型的建模单元。音素的数目不等于字母的数目，是从音质角度划分得出的最小语音单位。日语的标准音素有40个，加上连续语音中由于换气、思考等引起的暂停（sp）、连续语音开始静音段（SilB）和结束静音段（SilE），最终建模的音素共计43个。与孤立词识别相比，在连续语音中，语音还会受到临近音的影响，这种影响形式被称为协同发音，因此在连续语音模型中还需要考虑上下文的相关音素产生的协同发音。这种上下文相关的音素模型通过考虑某个音素的前后几个音素来捕捉协同发音，提高系统的识别性能。考虑的相关音素数量越多，模型的复杂度就越高。常用的方法是只考虑当前音素左右相邻的音素，这种方式称为三元音素（triphone）模型。　　三音素模型的训练直接来自与上下文相关的单个音素，这种训练方式导致系统中的HMM模型个数以3次方的倍数增加，影响了系统处理效率和识别精度。为了避免这个问题，根据经验和实验得到的条件对于相同类型的三音素进行状态捆绑。该操作使用HEEd工具函数和决策树文件对所有的三音素模型进行多次训练得到。　　建模训练中首先利用连续语音特征生成单音素（Monophone）模型，本文使用的是HCompV和HERest创建训练单音素模型。为了解决协同发音，还需要创建三音素（Triphone）模型并进行模型重估。根据Net文件生成三音素模型。对与单音素和三音素模型的训练，还需要引入高斯混合数进行模型重估分类训练。该步骤的目的是训练出一个高效稳定的声学模型，该模型使识别的精度趋于平稳。　　分类的目的有两个，第一个是减少音素模型类别，使得在较少的数据集上训练得到的模型较为可靠；第二，减少了模型之间的重叠性、增加区分性。　　图2 音素训练分类过程　　创建原始的HMM模型，该模型由均值向量和协方差矩阵所组成，用5个状态、26维系数和状态转移矩阵表示。再依据音素表和音素特征文件生成各个音素级的HMM。最后根据所有的训练语音数据对音素级HMM进行训练形成单音素模型。为了增强HMM模型的抗干扰能力，加入了静音部分（针对音素sp）进行状态优化。该过程通过HTK中的HHEd来完成。针对多发音字，采用HVite工具函数结合语料进行重复多次的训练来完成。　　3 语音识别系统的数据源　　语音数据分为两个部分：训练库和测试库。训练语音数据库来自JNAS （Japanese news article sentences）数据库，训练数据库中的语音来源于报纸《每日新闻》中的内容，由153个男性朗读的大概2万3千多个句子。为了更好的检测模型的鲁棒性，测试库数据不仅有来自JNAS从训练库选取的数据，还有来自北海道大学日本学生朗读的与训练库数据完全无关的句子。　　4 系统实现　　图3为连续语音系统的结构。JNAS包括了语音的