HTK手册_第三章.doc

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HTK手册_第三章

第三章 一个例子——使用HTK指南 本章作为指南部分的最后一章,将描述构造一个简单的用于语音拨号的识别器的过程。这个识别器可以识别连续的数字串和有限个名字。由于这是一个子词[译者注:并非为整个单词建立模型,而是词的一部分建立模型,可理解成对音素建模](sub-word)识别系统,所以向词典中加入一个新的名字只需要修改发音词典和语法网络(task grammar)。HMM模型使用的是连续密度混合高斯模型,且使用决策树聚类的状态绑定的triphone。虽然这个语音拨号系统本身相当简单,但是系统的设计具有代表性,对学习HTK的使用很有帮助。 我们将从无到有构建此系统,包括使用HTK工具HSLab录制训练数据和测试数据。为了简化,这个系统是说话人相关的,但是建造一个说话人无关的系统可以采用相同的设计方法。唯一的不同在于需要足够数量的不同说话人的数据,以及相应地增加模型复杂度。 构造一个“全新”的识别器包括很多相关的子任务,而且没有一个明确的实现这些任务的最佳顺序。这里就按时间顺序来介绍,构造类似系统时可以参考本书介绍的步骤。本书剩下的部分相当详细地描述了完整的过程,并清晰地给出HTK工具集所涉及的范围。 HTK的发行软件中也包含了一个用于ARPA海军资源管理任务的1000个词的识别系统的例子,放在HTK软件包的目录RMHTK下。在HTKDemo目录下有更多体现HTK性能和功能的实例。另外还可以在HTKTutorial目录下找到对学习指南部分有帮助的一些例子的脚本。 这一章的指南里介绍的每个步骤,假定使用者在执行命令之前完全了解了所有部分,并对于每个HTK工具都可以参考第17章(参考章节),所以所有的命令行参数和选项都应该是容易理解的。 数据准备 任何构造识别器的工程的第一步都是数据准备。训练数据和测试数据都需要准备。在我们需要建造的系统里,所有的语音都需要由最原始的录音得到,而且需要对每句录音进行标注。测试数据的重要性在于,可以通过测试数据度量识别器的性能,选择测试语料的一种简单的办法是由目标语法随机生成。对训练数据来说,语料内容的标注和发音词典一起用于完成初始音素层的标注,而这个标注是开启HMM训练过程所必须的。因为实际可能要将任意名字加入识别器,所以训练数据应该尽量提高音素覆盖率和均衡性[译者注:训练数据各方面(比如音素覆盖、语法结构等)的均衡性对HTK训练极其重要,对识别来说,会提高识别器的鲁棒性和识别性能,对合成来说会提高合成语音的自然度]。这里为了方便,我们用于训练的使用的提示脚本是从TIMIT acoustic-phonetic数据库获取的。 根据上面的描述,在录数据之前,必须先定义音素集合、覆盖训练数据和测试数据的词典和目标语法。 第一步 —— 目标语法 为电话拨号创建一个语音操作接口,是我们系统的最终目标。因此,识别器必须要能处理数字串和人名列表。典型输入可能是这样的: Dial three three two six five four Dial nine zero four one oh nine Phone Woodland Call Steve Young HTK 规定了一个语法定义语言,用于制定简单的目标语法。如下所示,它包括下面一组变量定义规则,描述需要识别的词。语音拨号应用中,一个可能的语法如下: $digit = ONE | TWO | THREE | FOUR | FIVE |SIX | SEVEN | EIGHT | NINE | OH | ZERO; $name = [ JOOP ] JANSEN |[ JULIAN ] ODELL |[ DAVE ] OLLASON |[ PHIL ] WOODLAND| [ STEVE ] YOUNG; ( SENT-START ( DIAL $digit | (PHONE|CALL) $name) SENT-END ) 间隔符”|”表示几选一的,方括号”[]”表示可选项,尖括号””表示一个或可多个重复。一个完整的语法可以被描述成一个如图3.1表示的网络。 上图中上层的目标语法描述是为了方便使用者。HTK识别器实际上需要的是一个使用更低层的符号定义的词网络,称为HTK标准网格SLF格式(HTK Standard Lattice Format (SLF)),在SLF里,每个词的实例和词之间的转换都明确列出了。这种词网络可以使用HParse工具由上面的语法自动建立,比如,包含上面的语法的文件称为gram,执行下面的操作 HParse gram wdnet 将会建立一个等效的词网络并存储到wdnet文件中(如图3.2)。 第二步 —— 词典 建立一个词典的第一步是建立一个经排序的

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档