基于Sphinx的语音识别框架及其性能优化-计算机技术专业论文.docxVIP

基于Sphinx的语音识别框架及其性能优化-计算机技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Sphinx的语音识别框架及其性能优化-计算机技术专业论文

摘 要 语音识别技术是以噪声信道模型为基本框架的,被广泛使用的一种人机交互技术。它 的出现彻底地改变了人类与机器之间的信息交换方式,影响着人们的生活和工作。在语音 识别技术的发展过程中,开源的语音识别工具为语音识别技术的推广和应用起到了重大的 推动作用。本文在卡内基梅隆大学的开源语音识别工具 Sphinx 语音识别引擎的基础上,深 入分析了其语音识别框架,提出并实现了并行的混淆网络生成算法和基于遗传算法的重打 分算法,以便加快混淆网络的生成和提高重打分算法的词准确率。因此本文的主要工作包 括三个方面: (1) 分析了 Sphinx-4 语音识别引擎的各功能模块,包括前端模块、解码器模块、语言 专家模块等,并重点分析了解码器模块,为语音识别技术的理解及研究打下坚实的基础。 (2) 分析了 Sphinx-4 中的混淆网络生成算法,然后在 Sphinx-4 中实现了本文提出的并 行混淆网络生成算法。该算法首先通过采用树型结构和节点聚类的方法来对网格中的节点 进行分割,以生成节点集,然后对生成的节点集使用并行的方法,单独的生成混淆网络, 以加快混淆网络的生成速度,最后连接各混淆网络,以生成完整的混淆网络。因此该算法 能够克服已有的混淆网络生成算法不能够兼顾混淆网络生成质量和生成速度的缺点。同时 在 Sphinx-4 上的实验结果也表明:并行混淆网络生成算法生成的混淆网络在质量上能够与 分段 lattice 的混淆网络生成算法保持一致,但是在生成速度上能够获得接近于理想状态下 的 Amdahl 加速比。 (3) 研究了语音识别中的重打分技术,包括重打分的概念、N-best 重打分、网格重打 分、混淆网络重打分等,重点研究了混淆网络重打分算法。在此基础上,通过把遗传算法 应用于混淆网络重打分中,在 Sphinx-4 中实现了本文所提出的混淆网络遗传重打分算法。 该算法首先通过把语音识别引擎的输出转换为混淆网络的形式,然后在混淆网络上通过构 造一般性遗传算法所需的基本元素-基因与染色体,最后在重打分函数下实现对染色体的重 打分。同时本文也分析了遗传算法中的突变率、交叉率、重打分函数等对词准确率的影 响。在 Sphinx-4 上的实验证明:该算法相比迭代重打分算法能够获得更好的词准确率。 关键词:Sphinx-4 语音识别引擎;混淆网络;网格;重打分算法;并行;遗传算法; 1 Abstract Speech recognition is a human-computer interaction technology. It bases on the noisy channel model and has changed the communication between human and machine. For now it has been widely used by all kinds of devices, and is affecting the people life-style. In the speech recognition area, the open-source speech recognition tools play a prominent role for speech recognition technology popularizing. This paper just based on the Carnegie Mellon University Sphinx open- source speech recognition tool and deeply analyzed its framework. Then this paper proposed and achieved a new parallel confusion network formation algorithm and a new re-scoring algorithm based on genetic algorithm. So the main job could be summarized to below three steps: Analysis of the Sphinx-4 each functional module, Instance of its decoding module, front end module, linguist module etc, emphatically analyzed its decoding module, to lay a solid foundation for understanding speech recognition technology. Analyzed t

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档