HTK手册_第一章中文版解读.pdfVIP

  • 25
  • 0
  • 约2.69万字
  • 约 13页
  • 2021-11-26 发布于天津
  • 举报
HTK 中文手册 纠错邮箱: jianglonghu@163.com 内部资料,请务外传 HTK BOOK V3.2 第一章 HTK 基础 HTK 是建立隐马尔可夫模型( HMM )的工具包, HMM 能用于模拟任何时间序列,而 HTK 内核对类似过程是通用的。不过 HTK 主要用于设计构造基于 HMM 的语音处理工具,特 别是识别器。 因此, HTK 中的一些基础组件专门用于这一任务。 如上图所示,它主要有两个 处理阶段。 首先, HTK 训练工具使用训练语料和相应的标注文件来估计 HMM 模型集的参数 ; 第二阶段,使用 HTK 识别工具来识别未知语音。 这本书主体的大部分内容都和这两个处理过程的机制相关。 然而, 在开始更细致的介绍 之前我们需要了解 HMM 的基本原理,这将有利于我们对 HTK 工具有个整体把握,对 HTK 如 何组织训练和识别过程也有一定的认识。 本书第一部分提供简要介绍了 HMM 的基本原理,作为 HTK 的使用指南。这一章介绍了 HMM 的基本思想和在语音中的应用。后面一章简要介绍了 HTK ,而且对老版本的使用者还 指出了 2.0版及后续版本的主要不同之处。在本书的指南部分的最后一章,第三章,描述了 一个简单的小词汇连续语音识别系统,以此为例介绍如何使用 HTK 构造一个基于 HMM 的语 音识别系统。 这本书的第二部分对第一部分进行了详细的讲解。 这部分可以结合第三部分和最后一个 部分( HTK 的参考手册)来阅读。这个部分包括:每个工具的描述、配置 HTK 的各个参数 和产生错误时的错误信息列表。 最后需要指出的是这本书仅仅把 HTK 当成一个工具包,并没有提供使用 HTK 库作为编 程环境的相关信息。 第 页 - 1 - HTK BOOK V3.2 1.1 HMM 的一般原理 语音识别系统通常假设语音信号是编码成一个或多个符号序列的信息实体(如图 1.1)。 为了实现反向操作, 即识别出给定说话人的语音的符号序列, 首先将连续语音波形转换成一 个等长的离散参数向量序列。 假设这个参数向量序列是语音波形的一个精确表示, 在一个向 量对应的时间段内(代表性的有 10ms等等),语音信号可看成是平稳的。虽然这一假设并 不严格, 但是这是合理的近似。 典型的参数表示法常用的是平滑谱或线性预测系数以及由此 衍生的各种其它的表示法。 识别器的任务是在语音向量序列和隐藏的符号序列间实现一个映射。 有两个问题使得完 成这一任务非常困难, 第一, 因为不同的隐藏符号能有相似的发音, 所以符号到语音的映射 不是一一对应的, 而且,发音人不同的心情和环境等因素会导致语音波形产生非常多的变化。 第二, 从语音波形中不能准确地识别出各符号间的边界,

文档评论(0)

1亿VIP精品文档

相关文档