语音识别超级心得.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别超级心得.ppt

Ⅳ 语音识别(78) 关于HMM训练的几点考虑 克服训练数据的不足 HMM的模型含有很多待估计的参数,为得到满意的模型,必须要有很多训练数据,这在实际中很难办到。 在训练数据少时,一些出现次数很少的观察值没有包含在整个训练数据中,这样训练出的HMM参数中就会有不少为零的概率值。 需要对训练好的模型进行相应的处理。 Ⅳ 语音识别(79) 常用的方法是将一个训练较充分,但细节较差的模型与一个训练虽不充分,但含有细节的模型进行混合。 前一个模型可在HMM模型结构中将有些状态转移概率及观察输出概率相近的进行“捆绑” ,从而减少模型参数。 使用相同的训练数据就可以对这种“捆绑”后的模型进行较充分的训练。 Ⅳ 语音识别(80) 合并两个HMM的问题可以表示为 Ⅳ 语音识别(81) 删插(Deleted Interpolation)平滑法 Ⅳ 语音识别(82) 4.4 大词汇量连续语音识别技术 语音识别研究中意义最重大、应用成果最丰富,同时最具有挑战性的研究课题。 大词汇量非特定人的连续语音识别系统的词误识率大体为小词汇量、特定人的孤立词识别系统词误识率的50倍左右。 特有的问题: 无法切分,无法确定单词间的边界位置。 发音变化:连续语音的发音比孤立词发音更随便,受协同发音的影响也更为严重。 Ⅳ 语音识别(83) 上个世纪90年代初期已经取得了若干突破性的进展。 这一进展依赖于在识别系统中采用HMM算法的统一框架,以及非常细致的将声学、语音学和语言学的知识引入,并改善这个框架。 Ⅳ 语音识别(84) Ⅳ 语音识别(85) 在实现时声学和语言学模型结合在一个框架中,训练时单独训练。 现在的统一做法是将整个识别系统分为三层:声学—语音层、词层和句法层。 Ⅳ 语音识别(86) Ⅳ 语音识别(87) 这样,从状态出发逐层扩大到音子、词、句子。 Ⅳ 语音识别(88) Ⅳ 语音识别(89) 4.4.1 声学模型 (1) 基本声学单元的选择 以词为基本单元建立模型不合理,造成大量不必要的冗余存储和计算。因此一般采用比词小的子词识别基元,如音节、半音节、音素等 。 一般来说,声学单元越小,其数量也就越少,训练模型的工作量也就越小; 但单元越小,对上下文的敏感性越大,越容易受到前后相邻的影响而产生变异,因此其类型设计和训练样本的采集更困难。 Ⅳ 语音识别(90) (2) 如何由子词单元构成词 在词层中应有一部字典来规定词表中每一个词是用哪些子词单元以何种方式构筑而成的。最简单实用的方案是每个词用若干子词单元串接而成。 每个词的发音可能有多种变化方式,在子词串接时,必须有所体现。 替换:即词中的某个音子可能被用其它相似而略有差异的子词单元所替换 。 插入和删除:词中有时增加了一个不是本词成分的子词单元,有时又将本词成分中的某个子词删除。 Ⅳ 语音识别(91) 解决方案 方案1:每一个词建立多套子词单元串接规则。 方案2:将子词单元构成词的规则用一个网络图来描述。 Ⅳ 语音识别(92) (3) 基于子词单元的HMM训练 子词单元的HMM一般采用从左到右的结构,状态数固定为2到4个。 在语音段中,子词太短,无法精确标出语音的边界。 训练时,用一种很粗糙的方法进行初始分段,例如等长分段,形成初始模型 。 已知句子内容,因此可将子词模型串接成句子,然后用分段K均值算法多次迭代,对各子词模型进行重估。最终会自动收敛于一个最佳模型估计,同时达到合理的子词分段。 Ⅳ 语音识别(93) 分段K均值算法 初始化:将每个训练语句线性分割成子词单元,将每个子词单元线性分割成状态,即假定在一个语句中,子词单元及其内部的状态驻留时间是均匀的; 聚类:对每个给定子词单元的每一个状态,其在所有训练语句段中特征矢量用K均值算法聚类; 参数估计:根据聚类的结果计算均值、各维方差和混合权值系数; 分段:根据上一步得到的新的子词单元模型,通过Viterbi算法对所有训练语句再分成子词单元和状态,重新迭代聚类和参数估计,直到收敛。 Ⅳ 语音识别(94) 4.4.2 语言模型 众所周知,从一个词表中任意选择若干词所构成的序列不一定能构成自然语言中的句子,只有合乎句法者才能算是句子。这种约束,在语音识别中可以利用语言模型来实现。 语言模型分为基于文法的语言模型和基于统计的语言模型。 在大词汇量的语音识别系统中,统计语言模型由于可以克服文法规则方法难以处理真实文本的局限性,因而获得了越来越广泛的应用。 Ⅳ 语音识别(95) 统计语言模型的基本原理是,采用大量的文本资料,统计各个词的出现概率以及其相互关联的条件概率,并将这些知识与声学模型匹配相结合进行结果判决,以减小由于声学模型不够合理而产生的误识。 Ⅳ 语音识别(96) N元文法模型:条件概率计算时,

文档评论(0)

专业好文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档