Sphinx4白皮书中文版.pdfVIP

下载本文档

58
0
约5.47千字
约 10页
2019-03-05 发布于湖北
举报
版权申诉

Sphinx4白皮书中文版.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Sphinx4 Sphinx4 FRAMEWORK 高度的灵活性和模块化每个标记元素在图中代表一个模块，可以很容易地更换，从而让研究人员尝试不同的模块实现，同时不需要修改系统的其他部分 3 个模块：前端处理模块、解码器、语言专家 Sphinx4API 的注释和翻译： /taiyb/article/category/24567 57 一、前端前端包括一个或多个平行的称为数据处理器的通信信号处理模块。支持多个链同时从相同或不同的输入信号中计算不同类型的参数。每一个数据处理器相当于是一个特定的信号处理函数。例如：一个处理器对输入数据执行 FFT （快速傅里叶变化）。另一个处理器执行的是高通滤波对输入数据。在处理器链中的每一个数据处理器都实现了 DataProcessor 接口。实现了 Data 接口的对象进行前端，从前端出来，在前端的处理器中通过。输入前端的数据一般是音频数据，但是前端是允许任意类型的输入的。类似的，输出的数据一般是特征，但是允许输出任意的输出类型。你能够配置前端接收任意类型的输入，返回任意类型的输出。前端是一个 Pull 模型，采用的是 pull 的设计模式。为了获得前端的输出，你需调用 frontend.getData(); 。在前端调用 getData() 方法会依次调用上（前）一个数据处理器在数据处理器链中的，直到第一个数据处理器的 getData() 方法被调用，这个处理器是从输入中读取 Data 对象。前端的输入实际上是另一个数据处理器，通常是前端的一部分。二、语言专家在 sphinx – 4 中，语言专家是一个可插入模块，允许人们用不同的语言专家实现动态配置系统。它是为解码器（ decoder ）创建和管理搜索空间的，此类为是一个提供了语言模型服务的一般接口。任何语言专家的主要作用是为解码器呈现搜索空间（构建搜索空间）。通过调用 getSearchGraph 方法，搜索管理类对象能够获得搜索空间。此方法返回的是一个搜索图类对象。在搜索图中的初始状态能够通过调用 getInitialState 方法获得，后续状态能够通过调用 SearchState.getSuccessors() 方法获得。一个语言专家有大量关于它在哪里返回搜索状态的顺序的维度。例如在一个 flat 语言专家也许会在一个字的开始处返回一个字状态，然而 tree 语言专家也许会在一个字的结尾处返回一个字的状态。同样的一个语言专家也许会在彻底的省略掉一些状态类型（如一个单元状态）。一些搜索管理器也许会想知道由语言专家产生的不同状态类型的先验顺序。 SearchGraph.getNumStateOrder() 方法用来获得状态类型的数量，此状态类型将会被语言专家返回即由其创造。被语言专家所表示的搜索空间依赖于词汇的长度（尺寸）和其拓，搜索空间也有会包含大量的状态。一些语言专家会动态的产生搜索状态，也就是说，在搜索空间中代表一个搜索状态的对象直到搜索管理器需要的时候才被创建。搜索管理器在比较状态之前需要决定一个特定的状态是否被加入。因为搜索状态有可能被动态的产生。被语言专家返回的状态通常能够提供 equals 和 hashCode 方法的非常有效率的实现。这允许搜索管理器高效的维护在 HashMaps 中的状态。本身包含三个可插拔的组件：语言模型、字典、声学模型 1、语言模型通常分为两类： graph-driven 语法和 N-Gram模型。 graph-driven 语法表示成有向图 ,每个结点代表一个单词,每个弧代表词发生的概率。 N-Gram模型即第 n 个词的出现只与前面N-1个