gmmhmm语音识别原理详解。.docVIP

下载本文档

20
0
约3.27千字
约 14页
2020-06-08 发布于中国
举报
版权申诉

gmmhmm语音识别原理详解。.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本文简明讲述 GMM- HMM 在语音识别上的原理，建模和测试过程。 1. 什么是 Hidden Markov Model？ HMM 要解决的三个问题： 1） Likelihood 2） Decoding 3） Training 2. GMM 是什么？怎样用 GMM 求某一音素（phoneme）的概率？ 3. GMM+ HMM 大法解决语音识别 3.1识别 3.2训练 3.2.1 Training the params oGf MM 3.2.2 Training the params o Hf MM ==================================================================== 1. 什么是 Hidden Markov Model？ ANS：一个有隐节点（ unobservable）和可见节点（ visible）的马尔科夫过程（见详解）。隐节点表示状态，可见节点表示我们听到的语音或者看到的时序信号。最开始时，我们指定这个 HMM 的结构，训练HMM 模型时：给定 n 个时序信号 y1...yT（训练样本），用 MLE（typically implemented in EM）估计参数： 1. N 个状态的初始概率 2. 状态转移概率 a 3.输出概率 b -------------- 在语音处理中，一个 word 由若干 phoneme（音素）组成；每个 HMM对应于一个 word 或者音素（phoneme）一个 word 表示成若干 states，每个 state表示为一个音素用 HMM 需要解决 3 个问题： 1） Likelihood：一个 HMM 生成一串 observation序列 x 的概率 the Forward algorithm ANS：一个有隐节点（ unobservable）和可见节点（ visible）的马尔科夫过程（见详解）。隐节点表示状态，可见节点表示我们听到的语音或者看到的时序信号。最开始时，我们指定这个 HMM 的结构，训练HMM 模型时：给定 n 个时序信号 y1...yT（训练样本），用 MLE（typically implemented in EM）估计参数： 1. N 个状态的初始概率 2. 状态转移概率 a 3.输出概率 b -------------- 在语音处理中，一个 word 由若干 phoneme（音素）组成；每个 HMM对应于一个 word 或者音素（phoneme）一个 word 表示成若干 states，每个 state表示为一个音素用 HMM 需要解决 3 个问题： 1） Likelihood：一个 HMM 生成一串 observation序列 x 的概率 the Forward algorithm 然然后根据记录的最可能转移状态序列进行回溯：然其中只要已知了这些参数，我们就可以在 predict（识别）时在给定 input sequence的情况下，计算出一串状态转移的概率。如上图要计算的 state sequence 1-2-概2 率： fig5. probability of S1-S2-S3 given o1-o2-o3 --------------------------------------------------------------------- GMM+ HMM 大法解决语音识别#e# 3. GMM+ HMM 大法解决语音识别我们获得 observation是语音 waveform，以下是一个词识别全过程： 1）将 waveform切成等长frames，对每个 frame 提取特征（e.g. MFCC）， 2）对每个 frame的特征跑 GMM ，得到每个 frame（o_i）属于每个状态的概率 b_state（o_i） fig6. complete process from speech frames to a state sequence 3）根据每个单词的 HMM 状态转移概率 a计算每个状态sequence生成该frame的概率; 哪个词的 HMM 序列跑出来概率最大，就判断这段语音属于该词宏观图： fig7. ork 好了，上面说了怎么做识别。那个 GMM 的参数和 HMM 的转移概率什么的呢？ ①Training the params ofGMM GMM 参数：高斯分布参数：从上面 fig4 下面的公式我们已经必须要知道 P（j|x），即，x 属于第 j 个高斯的概率。怎么求捏？ fig8. bayesian formula of P（ j | x ）根据上图P（j | x），我们需要求 P（x|j）和 P（j）