一种利用人工神经网络优化语音识别的方法.docxVIP

一种利用人工神经网络优化语音识别的方法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

一种利用人工神经网络优化语音识别的方法

摘要:语音识别就是利用机器通过识别和理解,将语音信号转变为文本,已经在很多行业得到了应用。由于每个人说话的方式都不同,其说话的特征都不一样。说话人识别就是通过一段语音识别出说话人的技术。结合人工神经网络对语音识别进行优化,平均准确率达到了94、5%。

关键词:神经网络;人工智能;语音识别;数据挖掘;反向传播

1引言

受生物神经网络启发,1943年心理学家McCulloch和数学家Pitt合作提出了形式神经元的数学模型。人工神经网络(ArtificialNeuralNetwork,ANN)由大量高度互联的信息处理单元组成,这些信息处理单元共同合作完成信息处理工作。这使得ANN特别适合于处理直觉和形象思维信息。经过了半个世纪的发展,ANN已经在图像处理、语音处理、以及人工智能的其他领域得到了广泛的应用。语音识别就是利用机器通过识别和理解,将语音信号转变为文本。近20年,语音识别领域得到了快速发展。市场上在家电、通信、消费电子产品等领域已经有一批语音识别的应用。本文通过将ANN和数据挖掘技术应用到语音识别上,优化语音识别性能,平均识别准确率达到了94、5%。

2基本概念

2、1人工神经网络

ANN是一种非线性的预测模型。它模仿生物神经网络的结构,经过训练学习,可以通过相对简单的函数组成的网络,以任意的精度近似任何非线性函数。经过多年的发展,现在的神经网络模型有很多种,如自适应谐振理论、反向传播(Back-Propagation,BP)网络以及Hopfield网等,其中BP网络应用的最为广泛[1-3]。人工神經网络的结构基本上可以分为递归(反馈)网络和前馈网络两类。

神经网络由单个的神经元组成。每个神经元由多个输入i,i=1,2,…,n和一个输出y组成,中间状态e由输入信号的权和表示如公式(1),θ为阈值。输出y一般采用二值函数或者S形的函数,如(2)、(3)所示,(3)为常用的Sigmoid函数。

e=1w1+2w2-θ(1)

f()=(2)

f()=(3)

构造好了神经网络后,需要训练样本集对神经网络进行训练学习。一般来讲,训练样本集包含了输入信号(1、2)和输出值的希望值z。神经网络的训练是一个迭代的过程。每一次的迭代都根据训练样本集中的数据对权值进行修正。

2、2数据挖掘

数据挖掘就是从大量的数据中发现隐藏在数据里面的信息。使用数据挖掘,可以让拥有大量数据的机构将其关注的重点放在最重要的信息上。

2、3语音识别

语音识别即是从听到的语音或者音频文件中识别出其中特定语言的语句,输出对应的文本。说话人的场景、语气以及说话发音习惯等都会对语音识别的精度有较大影响。此外,从其中一种程度上来讲,词汇量是无限的,语音识别系统应该具备智能识别未知词的能力[4-6]。

3实验方法

特征提取就是通过对原始数据进行变换得到最能反应分类本质的特征。线性预测系数就是一种能够有效表示语音信号的特征:通过对若干过去的语音采样进行线性组合来逼近当前的语音信号,可以得到一组唯一的预测系数,即线性预测系数。其优势在于可以用极少的参数来正确地表示语音信号的时域和频域特性[7,8]。

在本文中,每一个语音信号样本都用p个之前采集的语音样本的权和加上一个激励表示,如公式(4)。[n]表示表示语音信号样本,a[k]表示预测系数。在保证最小预测误差的情况下,获取线性预测系数。

[n]≈a[k][n-k](4)

总的平方预测误差为:

e=(∑n[]-a[k][n-k])2(5)

线性预测分析就是要确定a[k]的值,使得(5)的值最小。可以通过使(5)a[k]对应的偏导数为0,获取最终的a[k]。

具体的实验步骤为:首先,从包含有预先定义好的输入和目标向量集的数据文件中加载数据,通过数据挖掘提取特征信息并优化,创建神经网络,再用加载的数据对神经网络进行训练,直至找到输入和目标之间的关系。

4实验结果

二层前馈网络是最常见的采用反向传播算法的神经网络。反向传播算法的主要思想是通过输入信息经输入层和隐层逐层计算出各单元的输出值,然后将输出误差逐层向前计算出各单元的误差并利用此误差修正前层的权值。文中实验采用的就是这种二层前馈网络,在其隐层使用了20个神经元,输出层的神经元为1个。

实验先对神经网络进行训练。然后,采用了25个人的100组语音数据对神经网络进行测试,实验结果如表1所示。此模型总的准确率为94、5%。

5结语

通过实验可以看出,采用反向传播算法的神经网络模型适合于语音识别。下一步,通过优化数据挖掘算法,进而语音特征进行进一步的优化,进一步提高模型的性能。

文档评论(0)

153****3074 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档