连续语音识别系统.pdfVIP

下载本文档

77
0
约1.09万字
约 52页
2017-10-06 发布于天津
举报

连续语音识别系统.pdf

连续语音识别系统

连续语音识别系统洪青阳副教授厦门大学信息科学与技术学院 qyhong@xmu.edu.cn  语音识别分类 ◦ LVCSR  声学模型  识别网络  语言模型  解码算法 ◦ Viterbi Beam搜索算法 ◦ Token Passing算法 ◦ WFST  按词汇量大小分类： ◦ 小词汇量语音识别系统：几十个词 ◦ 中等词汇量语音识别系统：几百个到上千个词 ◦ 大词汇量语音识别系统：几千到几万个词  按说话的方式分类： ◦ 孤立词语音识别系统 ◦ 连接词语音识别系统 ◦ 连续语音识别系统 LVCSR: 大词汇量连续语音识别系统词条A3 词条A2 词条A1 BEGIN END 词条B1 词条B1 句子模型句法层词条模型音素a 音素b 音素c 构词层音素模型语音层声学层语音特征声学模型语言模型发音词典系统模块搜索空间解码算法 (1) 基本声学单元的选择  以词为基本单元建立模型不合理，造成大量不必要的冗余存储和计算。因此一般采用比词小的子词识别基元，如音节、半音节、音素等。  一般来说，声学单元越小，其数量也就越少，训练模型的工作量也就越小；  但单元越小，对上下文的敏感性越大，越容易受到前后相邻的影响而产生变异，因此其类型设计和训练样本的采集更困难。建模基元模型数目可训练性稳定性应用情况音节约400个一般好较普遍声韵母约60个较好较好很普遍音素约40个好一般较少内容内容发音过程的抽象描述： S1 S2 S3 S4 S5 S 模拟发音基元的起始；S 、S 、S 模拟发音基元的发声过程； 1 2 3 4 S 模拟发音基元的结束。 5 状态起始于S ，结束于S ，且只能向自身或向右转移。 1 5 HMM的输出是与转移弧相联系的，允许不产生输出的转移，即从一个状态转移到另一个状态时，无观察符号输出。这样的转移称为空转移。发音基元可以是句子、短语、音节或声韵母，根据实际需求而定。在连续语音识别中，字词或语句的HMM都是由子词单元的HMM连接形成的。一般在连接时，一个子词单元HMM的终止状态和相邻基元HMM的初始状态相连接，这种连接产生的转移弧就是空转移，如下图所示：子

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

连续语音识别系统.pdfVIP