连续语音识别系统.pdfVIP

  • 77
  • 0
  • 约1.09万字
  • 约 52页
  • 2017-10-06 发布于天津
  • 举报
连续语音识别系统

连续语音识别系统 洪青阳 副教授 厦门大学信息科学与技术学院 qyhong@xmu.edu.cn  语音识别分类 ◦ LVCSR  声学模型  识别网络  语言模型  解码算法 ◦ Viterbi Beam搜索算法 ◦ Token Passing算法 ◦ WFST  按词汇量大小分类: ◦ 小词汇量语音识别系统:几十个词 ◦ 中等词汇量语音识别系统:几百个到上千个词 ◦ 大词汇量语音识别系统:几千到几万个词  按说话的方式分类: ◦ 孤立词语音识别系统 ◦ 连接词语音识别系统 ◦ 连续语音识别系统 LVCSR: 大词汇量连续语音识别系统 词条A3 词条A2 词条A1 BEGIN END 词条B1 词条B1 句子模型 句法层 词条模型 音素a 音素b 音素c 构词层 音素模型 语音层 声学层 语音特征 声学模型 语言模型 发音词典 系统模块 搜索空间 解码算法 (1) 基本声学单元的选择  以词为基本单元建立模型不合理,造成大量不必 要的冗余存储和计算。因此一般采用比词小的子 词识别基元,如音节、半音节、音素等。  一般来说,声学单元越小,其数量也就越少,训 练模型的工作量也就越小;  但单元越小,对上下文的敏感性越大,越容易受 到前后相邻的影响而产生变异,因此其类型设计 和训练样本的采集更困难。 建模基元 模型数目 可训练性 稳定性 应用情况 音节 约400个 一般 好 较普遍 声韵母 约60个 较好 较好 很普遍 音素 约40个 好 一般 较少 内容 内容 发音过程的抽象描述: S1 S2 S3 S4 S5 S 模拟发音基元的起始;S 、S 、S 模拟发音基元的发声过程; 1 2 3 4 S 模拟发音基元的结束。 5 状态起始于S ,结束于S ,且只能向自身或向右转移。 1 5 HMM的输出是与转移弧相联系的,允许不产生输出的转移,即从一个 状态转移到另一个状态时,无观察符号输出。这样的转移称为空转移。 发音基元可以是句子、短语、音节或声韵母,根据实际需求而定。 在连续语音识别中,字词或语句的HMM都是由子词单元的HMM连接形成的 。一般在连接时,一个子词单元HMM的终止状态和相邻基元HMM的初始状态相 连接,这种连接产生的转移弧就是空转移,如下图所示: 子

文档评论(0)

1亿VIP精品文档

相关文档