网站大量收购独家精品文档,联系QQ:2885784924

基于CNN语音识别系统设计.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于CNN语音识别系统设计

摘要:随着计算机智能化的迅速崛起以及计算机技术的不断改进和发展,语音识别已应用于各行各业,发展前景也十分广阔。本文基于卷积神经网络在环境下进行深度学习,并应用于语音识别。进行数据迭代次数与正确率相关实验,最后结合实验结果评估表明:深度神经网络-隐马尔可夫模型()比高斯-隐马尔可夫混合模型()更精确。

关键词:神经网络;语音识别;深度学习

1引言

1.1研究背景

传统的语音识别系统主要使用基于高斯混合模型和隐马尔可夫模型()的声

学模型[1]。与传统高斯混合模型相比,近几十年来,深度学习的改进和发展使得神经网络深层声学模型的性能显著提高。但是,基于深层神经网络()的声学模型包括大量模型参数和惊人的计算复杂性,旨在给资源有限的移动设备应用深层神经网络带来前所未有的挑战。因此,基于深度神经网络的声学模型压缩技术的目的是为了降低模型的参数量与计算复杂度,从而促进语音识别系统应用于资源受限的移动端设备[2]。深度学习的思想来源于对神经网络的研究。多层传感器表示一种深度学习结构。深度学习确定分布式数据的属性,并结合低属性来创建更抽象的属性类别或高级属性的图片。2006年,辛顿等人在多年研究的背景下提出了深度学习的概念,这在科学界引起了极大的轰动。人们试图将这一概念转化为现实,但现实中,深层结构的改进成为一个难题,有人提出了基于信任网络的贪心逐层的学习算法,以及多级自动加密设备的深层结构,这为许多研究提供了希望。Lecun等人建议使用神经网络通过使用相对空间关系减少参数数量来提高学习性能,并且是第一个真实意义上的多层结构学习算法。深度学习是机器学习研究的一个新领域,可以解释为空间分层时的另一个隐藏的指导层次。为了创建一个概念层次,在各个层面上,有机整合之后开始使用回归模型,这有助于引入反向沟通培训。人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本[3]。简明的说用建立、模拟两个词总结。

1.2国内外发展现状

和随着互联网技术的飞速发展,人工智能的话题热度家喻户晓,语音识别并非一时兴起,一些美国大学和研究机构已经在这个领域进行了年的研究。 年,贝尔实验室的名研究人员建立了一个单喇叭数字识别系统[4]。这个系统研究声能的各个功率谱的形成。在到年,该团队使用线性预测分析( )技术和其他相关理论来执行详细的任务,并为特定的个人创建单独的语音识别系统。随着计算机性能的提高,近十年来掀起了使用深度学习研究语音识别热潮[5]。如今,人们开始享受声音技术带来的便利。简而言之,用户可以向计算机发送指令,要求计算机记录用户的语言或将其转换为文本来录制音频,但这远远不是人与计算机之间真正的自由交互。真正的自由不需要太多的电脑训练来识别使用者的声音。换句话说,在实现实际商业用途方面需要取得进展。一般来说, 语音识别的现状是许多语音识别中常见的趋势。年,微软推出的声学建模来实现 神经网络的供电。尽管在通信网络中,的性能有了很大的提高,但也受到了很多批评,包括高训练和高解码延迟,因此很难在现场使用实时识别系统。

1.3语音识别技术的发展趋势

简单的将人类的语言转换为文字毫无意义,语音识别的最终目的是让机器能像人类一样思考,理解人类。今天研究的主要重点是如何将语音识别和意义理解结合起来。如今的语音识别只考虑了语音中前一小段的历史信息,但如果能取得明显的结果,就需要更多的历史信息。当然,如何将上下文对话信息发送到语音识别系统是一个大问题。机器仅靠声音信息是无法理解人类语言的。更重要的是,很难通过语音识别系统消除各种声环境因素的影响。普通人在日常讲话中有随机性和不确定性,给识别带来了巨大的困难。如果机器正在学习人类知识的话,集“声光热力电”等物理传感手段是必不可少的。这样机器就能有效地识别人类世界中的真实信息。除此之外,机器必须要超过人类的五官,这样才能看见人类看不见的世界,听见人类听不见的世界。

图1-1总体设计思路框图

1.4论文主要工作内容

先对和语音设计系统的基本原理进行描述和介绍,结合此前研究人员使用隐马尔可夫模型在语音识别方面的局限性,提出采用Python语言,并结合模型,进行软件仿真,最后对语音识别结果评估,以此达到对现如今模型包含大量的模型参数和极高的运算复杂度进行优化处理的目的。

1.5本文结构安排本文档分为四个部分,每一部分阅读如下:

第一章:语音识别研究的发展和现状以及人工神经网络技术在语音识别中的应用概述,以及本文研究和组织结构的基础内容。

第二章:给出了语音识别和神经网络的基本原理,分别说明了处理语音的过程、声音特征提取的技术,并运用分析模型的特性解析了语音识别场景中的一些缺陷,进而提出深度神经网络的思想( ),引出了本文重要的声学模型。

第三章

文档评论(0)

13141516171819 + 关注
实名认证
内容提供者

!@#¥%……&*

1亿VIP精品文档

相关文档