语音识别基本算的研究.pdfVIP

下载本文档

21
0
约14.29万字
约 89页
2016-01-13 发布于四川
举报
版权申诉

语音识别基本算的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音识别基本算的研究

些查奎翌奎兰堡主兰些笙兰一．————————————————————————————i堡摘要本文的研究取得三项结果：1)提出一种用于实现“语境相关矢量量化”的算法；2)为解决汉语识别中存在的多字词且词边界不明确的问题，提出一种基于语言模型概率“等级化”和候选(多字)词的(词图)启发搜索，从而简化了汉语识别的“词图搜索”过程：3)阐述了训练数据自动切分及声学模型自动训练的重复迭代过程，从而给出了实现声学模型自动训练的基本算法。但体阐述如下： 1)提出一种实现cr语境相关矢量量化”的Interpolation算法在目前发表所有的有关文献中，只阐述了语境相关矢量量化算法的基本原理，均末给出这种算法的具体实现方法。因此，在本文的第二章中，提出一种自适应地确定分裂增益和融合损失的算法，从全部发音语境中挑选出发音差异最大的若干语境的训练数据单独构成混合密度中的分量，而发音差异较小的其它语境的训练数据共同构成一个混合分量。因此，这种算法实际上是一种训练声学模型的Interpolation算法。 2)提出一种基于语言模型概率“等级化”和候选词的(词图)启发搜索算篮语音识别由“音节(词)树搜索”和“词图搜索”两个过程实现。树搜索用于确定要扩展的音节或词，而词图搜索用于确定最大后验概率的句子(词序列)。 beam search，和时间异步搜索，如A’ 树搜索算法分为时间同步搜索，如Viterbi 算法。为保证识别率，明确较多地采用A+算法。彳+算法要求快速声学匹配结果作为启发函数，而快速声学匹配可以采用Viterbi时间同步搜索来实现。词(音节)树搜索的结果为进一步完成词图搜索提供候选(可能的词串或音节串)。词图搜索要求同时使用语言模型概率和声学匹配概率来确定最大后验概率的词序列(句子)。而一般语言模型概率和声学匹配概率是两种不同范围的概率测度，不能直接共同用于计算词序列的后验概率。为此，本文第三章提出将语言模型概率按其log值大小等级化，log语言模型概率愈高，等级值愈低。这样，等级化的语言模型概率可以直接与等级化的log声学匹配概率的时间平均值累加，而获得似然词序列的后验概率。为实现词图搜索，在第三章还提出为似然音节解码路径中的每～音节分配一个结构，用于记录其所构成的词在路径中的匹配情况，包括其实际长度，当前已匹配长度，在路径中的位置，以及声学匹配概率等级时间平均值，等等，从而极大地简化了词图搜索的实现过程。此外，在词图搜索过程中，用来得到语言模型第 j 页韭互兰望查兰壁：!堂丝丝苎：———————————————————————————塑兰概率确证的候选词作为启发函数(即每一trigram或词对的尾词)，来确定该 trigrarn的中间词或该词对的头词是否能够构成最大后验概率的句子，从而构成 “启发搜索”。 3j阐述了声学模型自动训练的基本原理当前语音识别系统的进步，不仅体现在系统性能的提高，例如：可以获得较高的非特定人、大词汇表、连续语音的识别率，及系统应用范围的拓展，如：可以用于电话语音识别和人机对话系统，等等…，而且还表现在当前的识别系统在很大程度上可以自动构成，如：训练数据可以自动切分和标注，声学模型可以自动训练，等等…。这些进步都是促使识别系统在不断降低研究人员的工作量和工作强度的前提下，依然能够迅速更新，性能不断提高的重要保证。训练数据的自动切分及标注是声学模型自动训练的前提。本文第四章将训练数据的自动切分过程分为四个阶段，第一个阶段是用孤立音节训练的声学模型自动切分连续语音(将连续语音切分成音节)；第二个阶段是用人工切分的(音素) 初始化训练数据训练音索模型；第三个阶段是用初始化训练的音素模型切分连续语音(将音节切分成音素)；第四个阶段是不断重复音素模型的训练过程及其对训练数据的切分，直至收敛为止。文中详细论述了用音节模型自动切分连续语音的方法。在第四章还阐述了仅凭最大似然性或最大后验概率不能确定语音识别的可信度，语音识别的可信度必须利用多模态信息处