- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垃圾模型在线垃圾模型及其性能优化
清华大学工学硕士学位论文 钟 林:汉语语音识别说话验证
第五章 垃圾模型,在线垃圾模型及其性能优化
垃圾模型是说话验证中常用的方法。在线垃圾模型在概念上与之相关。在研究
说话验证时,在线垃圾模型通常被选作基准方法。本章将以电话语音识别系统为平
台研究基于垃圾模型与在线垃圾模型的说话验证,并将给出相应方法在语音确认系
统上的性能。由于本章的验证方法基于半音节模型之上,验证的方法是词表/任务
无关的。垃圾模型和在线垃圾模型也是关键词识别中最常用的方法,本论文工作虽
然主要集中在验证上,但希望关于这些方法的研究和结论也会使关键词识别研究受
益。
5.1 垃圾模型
5.1.1 有回跳的 HMM 结构
(Bourlard et al, 1994 )(Manos and Zue, 1997) 比较了许多基于HMM 垃圾模型
的可能性。非法声响与语音相比,声学特征更加复杂,简单HMM 结构并不能胜任。
第一,由于非法声响的长度变化,因此,其HMM 结构中应该有回跳(Back Jumping )。
第二,许多非法声响,特别是非语音的短时变化剧烈,因此,HMM 结构中应该允
许更多的跳转。 有几种直观上很合理的HMM 结构。结构I (如图5-1 左)通常
用于对背景噪声建模;结构II (如图5-1 右)允许更多的跳转。采用训练系统半音
节HMM 的863 语音数据库的一小部分(16 个说话人,每人45 句话)。两种结构
各有3 个状态,每个状态用3 个高斯混合模型估计发射概率分布。
47
清华大学工学硕士学位论文 钟 林:汉语语音识别说话验证
图 5-1 垃圾 HMM 的结构
5.1.2 高斯混合模型
极端的情况是基于高斯混合模型(Gaussian Mixture Model,GMM )和最小距
离匹配的。这相当于可以从任何状态进入/离开的全连接HMM 结构。通过聚类得
到的每个GMM 相当于HMM 状态。对一帧语音X 与GMMϖ i 的距离定义为该帧
语音对 的似然度:
ϖ
i
M
D (X ,ϖ ) = p (X |ϖ ) = ∑C N (X ,µ , Σ)
i i ij ij ij
j =1
其中µ 与Σ 分别为第 个高斯分量的均值与协方差矩阵。Viterbi 对准相当于
ij ij j
为输入语音矢量序列找出最小距离匹配的GMM 序列,路径的积累似然度对应路径
的积累匹配距离。训练码字时采用普通的K 均值聚类算法(杨行峻迟惠生,1995),
由于距离选取似然度的形式,实际上是对训练语音的最大似然度学习。为与有回跳
的HMM 垃圾模型比较,本论文采用3 个GMM 来对输入语音帧建模。每个GMM
与有回跳的HMM 状态一样,用3 个高斯混合模型来估计,如图5-2。
48
清华大学工学硕士学位论文 钟 林:汉语语音识别说话验证
图 5-2 三个高斯混合模型的垃圾模型 图 5-3 用垃圾模型验证
5.1.3 验证
验证的过程如图5-3 所示。将垃圾模型与识别系统的声学和语言模型并行,识
别结束时,同时给出了垃圾模型的似然度得分p (X | G) 。当似然比
max p (X |ϖ j )
LR = j
文档评论(0)