Sphinx4白皮书中文版.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Sphinx4 Sphinx4 FRAMEWORK 高度的灵活性和模块化 每个标记元素在图中代表一个模块,可以很容 易地更换,从而让研究人员尝试不同的模块实现, 同时不需要修改系统的其他部分 3 个模块:前端处理模块、解码器、语言专家 Sphinx4API 的注释和翻译: /taiyb/article/category/24567 57 一、前端 前端包括一个或多个平行的称为数据处理器的通信信号处理模块。支持多个链同时从相 同或不同的输入信号中计算不同类型的参数。每一个数据处理器相当于是一个特定的信号处 理函数。例如:一个处理器对输入数据执行 FFT (快速傅里叶变化)。另一个处理器执行的 是高通滤波对输入数据。 在处理器链中的每一个数据处理器都实现了 DataProcessor 接口。实现了 Data 接口的对 象进行前端,从前端出来,在前端的处理器中通过。输入前端的数据一般是音频数据,但是 前端是允许任意类型的输入的。类似的,输出的数据一般是特征,但是允许输出任意的输出 类型。你能够配置前端接收任意类型的输入,返回任意类型的输出。 前端是一个 Pull 模型,采用的是 pull 的设计模式。为了获得前端的输出,你需调用 frontend.getData(); 。在前端调用 getData() 方法会依次调用上(前)一个数据处理器在数据 处理器链中的,直到第一个数据处理器的 getData() 方法被调用,这个处理器是从输入中读取 Data 对象。前端的输入实际上是另一个数据处理器,通常是前端的一部分。 二、语言专家 在 sphinx – 4 中,语言专家是一个可插入模块,允许人们用不同的语言专家实现动态配置系 统。它是为解码器( decoder )创建和管理搜索空间的,此类为是一个提供了语言模型服务的一般 接口。 任何语言专家的主要作用是为解码器呈现搜索空间(构建搜索空间)。通过调用 getSearchGraph 方法,搜索管理类对象能够获得搜索空间。此方法返回的是一个搜索图类对象。在搜索图中的初始 状态能够通过调用 getInitialState 方法获得,后续状态能够通过调用 SearchState.getSuccessors() 方 法获得。 一个语言专家有大量关于它在哪里返回搜索状态的顺序的维度。例如在一个 flat 语言专家也许会 在一个字的开始处返回一个字状态,然而 tree 语言专家也许会在一个字的结尾处返回一个字的状 态。同样的一个语言专家也许会在彻底的省略掉一些状态类型(如一个单元状态)。一些搜索管理 器也许会想知道由语言专家产生的不同状态类型的先验顺序。 SearchGraph.getNumStateOrder() 方 法用来获得状态类型的数量,此状态类型将会被语言专家返回即由其创造。 被语言专家所表示的搜索空间依赖于词汇的长度(尺寸)和其拓 ,搜索空间也有会包含大量的 状态。一些语言专家会动态的产生搜索状态,也就是说 ,在搜索空间中代表一个搜索状态的对象直 到搜索管理器需要的时候才被创建。搜索管理器在 比较状态之前需要决定一个特定的状态是否被加 入。因为搜索状态有可能被动态的产生。被语言专家返回的状态通常能够提供 equals 和 hashCode 方法的非常有效率的实现。这允许搜索管理器高效的维护在 HashMaps 中的状态。 本身包含三个可插拔的组件 :语言模型、字典、声学模型 1、语言模型 通常分为两类: graph-driven 语法和 N-Gram模型。 graph-driven 语法表示成有 向图 ,每个结点代表一个单词,每个弧代表词发生的概率。 N-Gram模型即第 n 个词的 出现只与前面N-1个

您可能关注的文档

文档评论(0)

1112111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档