- 77
- 0
- 约1.09万字
- 约 52页
- 2017-10-06 发布于天津
- 举报
连续语音识别系统
连续语音识别系统
洪青阳 副教授
厦门大学信息科学与技术学院
qyhong@xmu.edu.cn
语音识别分类
◦ LVCSR
声学模型
识别网络
语言模型
解码算法
◦ Viterbi Beam搜索算法
◦ Token Passing算法
◦ WFST
按词汇量大小分类:
◦ 小词汇量语音识别系统:几十个词
◦ 中等词汇量语音识别系统:几百个到上千个词
◦ 大词汇量语音识别系统:几千到几万个词
按说话的方式分类:
◦ 孤立词语音识别系统
◦ 连接词语音识别系统
◦ 连续语音识别系统
LVCSR: 大词汇量连续语音识别系统
词条A3
词条A2
词条A1
BEGIN END
词条B1 词条B1
句子模型 句法层
词条模型 音素a 音素b 音素c 构词层
音素模型 语音层
声学层
语音特征
声学模型 语言模型 发音词典
系统模块
搜索空间 解码算法
(1) 基本声学单元的选择
以词为基本单元建立模型不合理,造成大量不必
要的冗余存储和计算。因此一般采用比词小的子
词识别基元,如音节、半音节、音素等。
一般来说,声学单元越小,其数量也就越少,训
练模型的工作量也就越小;
但单元越小,对上下文的敏感性越大,越容易受
到前后相邻的影响而产生变异,因此其类型设计
和训练样本的采集更困难。
建模基元 模型数目 可训练性 稳定性 应用情况
音节 约400个 一般 好 较普遍
声韵母 约60个 较好 较好 很普遍
音素 约40个 好 一般 较少
内容
内容
发音过程的抽象描述:
S1 S2 S3 S4 S5
S 模拟发音基元的起始;S 、S 、S 模拟发音基元的发声过程;
1 2 3 4
S 模拟发音基元的结束。
5
状态起始于S ,结束于S ,且只能向自身或向右转移。
1 5
HMM的输出是与转移弧相联系的,允许不产生输出的转移,即从一个
状态转移到另一个状态时,无观察符号输出。这样的转移称为空转移。
发音基元可以是句子、短语、音节或声韵母,根据实际需求而定。
在连续语音识别中,字词或语句的HMM都是由子词单元的HMM连接形成的
。一般在连接时,一个子词单元HMM的终止状态和相邻基元HMM的初始状态相
连接,这种连接产生的转移弧就是空转移,如下图所示:
子
您可能关注的文档
最近下载
- 传统基材润湿流平(氟碳硅烷嵌段).pdf VIP
- 南京财经大学2024-2025学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- C4D课程考试试题及参考答案.doc VIP
- 2025年陕西公务员申论考试真题及答案B卷.docx VIP
- [渝粤教育] 西北工业大学 航天器控制原理 mooc 资料.docx VIP
- 航天器控制原理(西北工业大学)中国大学MOOC 慕课 章节测验 期末考试答案.pdf VIP
- 精品解析:2025年陕西省中考数学试题(原卷版).docx VIP
- 四维度主力跟踪.pdf
- 2022年陕西省中考数学真题(原卷版).docx VIP
- 大众网关控制器和bcm车身控制模块针脚定义非常有用.pdf VIP
原创力文档

文档评论(0)