基于Sphinx的语音识别框架及其性能优化-计算机技术专业论文.docxVIP

下载本文档

19
0
约5.91万字
约 66页
2018-12-18 发布于上海
举报
版权申诉

基于Sphinx的语音识别框架及其性能优化-计算机技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Sphinx的语音识别框架及其性能优化-计算机技术专业论文

摘要语音识别技术是以噪声信道模型为基本框架的，被广泛使用的一种人机交互技术。它的出现彻底地改变了人类与机器之间的信息交换方式，影响着人们的生活和工作。在语音识别技术的发展过程中，开源的语音识别工具为语音识别技术的推广和应用起到了重大的推动作用。本文在卡内基梅隆大学的开源语音识别工具 Sphinx 语音识别引擎的基础上，深入分析了其语音识别框架，提出并实现了并行的混淆网络生成算法和基于遗传算法的重打分算法，以便加快混淆网络的生成和提高重打分算法的词准确率。因此本文的主要工作包括三个方面： (1) 分析了 Sphinx-4 语音识别引擎的各功能模块，包括前端模块、解码器模块、语言专家模块等，并重点分析了解码器模块，为语音识别技术的理解及研究打下坚实的基础。 (2) 分析了 Sphinx-4 中的混淆网络生成算法，然后在 Sphinx-4 中实现了本文提出的并行混淆网络生成算法。该算法首先通过采用树型结构和节点聚类的方法来对网格中的节点进行分割，以生成节点集，然后对生成的节点集使用并行的方法，单独的生成混淆网络，以加快混淆网络的生成速度，最后连接各混淆网络，以生成完整的混淆网络。因此该算法能够克服已有的混淆网络生成算法不能够兼顾混淆网络生成质量和生成速度的缺点。同时在 Sphinx-4 上的实验结果也表明：并行混淆网络生成算法生成的混淆网络在质量上能够与分段 lattice 的混淆网络生成算法保持一致，但是在生成速度上能够获得接近于理想状态下的 Amdahl 加速比。 (3) 研究了语音识别中的重打分技术，包括重打分的概念、N-best 重打分、网格重打分、混淆网络重打分等，重点研究了混淆网络重打分算法。在此基础上，通过把遗传算法应用于混淆网络重打分中，在 Sphinx-4 中实现了本文所提出的混淆网络遗传重打分算法。该算法首先通过把语音识别引擎的输出转换为混淆网络的形式，然后在混淆网络上通过构造一般性遗传算法所需的基本元素-基因与染色体，最后在重打分函数下实现对染色体的重打分。同时本文也分析了遗传算法中的突变率、交叉率、重打分函数等对词准确率的影响。在 Sphinx-4 上的实验证明：该算法相比迭代重打分算法能够获得更好的词准确率。关键词：Sphinx-4 语音识别引擎；混淆网络；网格；重打分算法；并行；遗传算法； 1 Abstract Speech recognition is a human-computer interaction technology. It bases on the noisy channel model and has changed the communication between human and machine. For now it has been widely used by all kinds of devices, and is affecting the people life-style. In the speech recognition area, the open-source speech recognition tools play a prominent role for speech recognition technology popularizing. This paper just based on the Carnegie Mellon University Sphinx open- source speech recognition tool and deeply analyzed its framework. Then this paper proposed and achieved a new parallel confusion network formation algorithm and a new re-scoring algorithm based on genetic algorithm. So the main job could be summarized to below three steps: Analysis of the Sphinx-4 each functional module, Instance of its decoding module, front end module, linguist module etc, emphatically analyzed its decoding module, to lay a solid foundation for understanding speech recognition technology. Analyzed t