[HTKBook第一篇教程概览.docVIP

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[HTKBook第一篇教程概览

第一篇 教程概览 HTK基础 HMM基本原理 孤立词识别 输出概率说明 Baum-Welch Re-Estimation 识别和Viterbi解码 连续语音识别 说话者适应 HTK工具包概览 HTK软件架构 HTK工具的一般属性 工具包 数据准备工具 训练工具 识别工具 分析工具 版本3.4中的更新 版本3.3中的更新 版本3.2中的更新 版本3.1中的更新 版本2.2中的更新 版本2.1中的新特征 一个教程示例 数据准备 步骤一 任务语法 步骤二 字典 步骤三 录制语音数据 步骤四 创建脚本文件 步骤五 语音数据编码 创建单元音HMM 步骤六 创建Flat start单元音 步骤七 确定Silence模型 步骤八 Realigning训练数据 创建Tied-Stated三元音 步骤九 从单元音创建三元音 步骤十 创建Tied-Stated三元音 识别器评估 步骤十一 识别测试数据 运行识别器 HMM自适应 步骤十二 准备自适应数据 步骤十三 生成Transforms(转移矩阵) 自适应系统评估 Semi-Stated和HLDA Transform 总结 第一章 HTK基础 HTK是一个用于构建隐马尔可夫模型(HMM)的工具包。隐马模型可用于对任意时间序列建模,与此类似,HTK的核心部分也是具有通用性的。然而,HTK主要还是用于构建基于HMM的语音处理工具,特别是语音识别工具。因此HTK的在基层架构上提供的功能,主要是为了完成这个任务。如上图所示,这个任务主要由两个阶段构成。首先,HTK的训练工具基于语音数据和关联的脚本进行HMM参数的估算,其次,未知的语音数据被HTK的识别工具识别,输出识别结果。 本教程主要关注于以上两个处理过程的机制。然而在深入细节之前,理解HMM的一些基本原理是有必要的,对HTK工具包有一个大概的认识也是有帮助的。 本书的第一篇提供这些内容。本章介绍了HMM的基本思想及其在语音识别中的用处。第二章则对HTK进行概括介绍,并着重描述了2.0版本以后的版本差异。最后,在第三章,你将看到如何基于HTK构建一个语音识别器,该章描述了一个简单的小词汇量连续语音识别器的构造过程。 本书的第二篇则详细论述了HMM的各种细节,此篇可以和本书的第三篇一起阅读,第三篇提供了一个HTK的参考手册,包括对每种工具的描述,总结,以及用于配置HTK的各种参数和错误信息列表。 最后请注意,这本书只将HTK作为一个工具包来介绍,而没有提供使用HTK库作为编程环境的信息。 第一节 HMM基本原理 语音识别系统一般认为语音信号是被编码为一个或多个符号组成的序列的一些信息(见图1)。对于一段语音,为了准确地识别出它内含的这个符号序列,一般会先将连续的语音波形进行转换,转换成一个相等间距的离散的参数向量的序列。这个参数向量序列之所以被认为可以准确表达原始的语音数据,是基于这样的假设,即在一个单独的参数向量的持续时间内(一般是10毫秒左右),语音数据可以看作是固定不变的。虽然这并不是完全准确的,但可以认为是合理的近似。常见的典型参数化表示方法有smoothed spectra和线性预测系数,以及其它由他们派生的一些方法。 识别器的角色是在语音向量序列和语音包含的符号序列之间建立一个有效的映射。有两个问题让这变得很困难,第一,从符号到语音数据的映射不是一对一的,因为不同的符号可以产生相似的声音,而且由于说话者的情绪、所处环境等差异,语音波形也会有很大的差异。第二,符号之间的边界无法从语音波形中明显地确定下来。因此,将语音波形当作一个由一系列静态的模式连接而成的序列是不可能的。 通过将任务限定在孤立词识别的范围内,可以避免第二个无法识别单词边界位置的问题。 如图1.2所示,这意味着语音波形与一个从固定的词汇中选择出来的符号(比如单词)相对应。虽然这个简单的问题被作了人工限制,但它仍然在实际中有很多应用。而且在深入更复杂的连续语音识别之前,可以通过它熟悉基于HMM的语音识别的基本方法。因此下面将首先介绍孤立词的识别。 注:此处的符号,应该是指文本符号,比如单词或音节。从图1可以看出,说话者阅读符号序列,然后输出语音波形数据,然后波形数据再被转换为参数向量序列。最后的识别是基于这个向量序列进行的,目的是复原说话者所阅读的符号序列(文本)。 第二节 孤立词识别 假设每个单词的发音被表示为一个语音向量的序列,或者Observation O,定义为: (1.1) 其中Ot是在时间t所观察到的语音向量。那么孤立词识别问题可以认为就是计算 (1.2) 其中wi是词汇表中的第i个单词。这个概率只有通过Bayess Rule才能计算出来 (1.3) 这样,对于给定的先验概率集合P(w

文档评论(0)

zhuanyewd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档