- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
卷积神经网络在语言识别中应用
卷积神经网络在语言识别中应用
摘 要 近年来,随着理论的发展与大数据的来临,人工智能、深度学习再度成为学术界研究的热点。本研究的主要目标是通过卷积神经网络实现对江苏省方言的分类,提出了一种高效准确的语音识别与分类的方法,可建立详细的方言数据库,在方言日益衰微的今天,方言数据库对于方言的保护与研究都具有重大意义。首先详细介绍了用于卷积神经网络的数据集的制作过程,包括语音文件的准备,声谱图的批量转化以及处理过程。然后使用MatConvNet建立卷积神经网络,在训练与测试过程中不断修改参数,最后使用江苏省方言中的单字进行测试,分类的准确率在85%左右,证明该卷积神经网络性能良好。
关键词 卷积神经网络;语音识别;江苏省方言;MatConvNet
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2018)208-0080-03
1 卷积神经网络
1.1 卷积神经网络的起源与发展
卷积神经网络是人工智能神经网络的一种,Fukushima于1980年第一次提出了一个基于感受野的理论模型Neocognitron,Neocognitron是一个自组织的多层神经网络模型,也是卷积神经网络的理论基础;1998年,Lecun 等提出的LeNet-5采用了反向传播算法对神经网络网络进行有监督的训练,经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征向量,最后通过全连接的神经网络针对图像的特征表达进行分类,这就是最早的卷积神经网络模型;2012年,Krizhevsky 等提出的AlexNet 在大型图像数据库ImageNet的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界的焦点,至此卷积神经网络被广泛应用于语音分析和图像识别领域。
1.2 卷积神经网络的结构
卷积神经网络是一个多层的神经网络,由多个独立神经元彼此连接构成平面,又由多个二维平面构成完整的网络。卷积神经网络一般含有多个卷积层与特征映射层,其中卷积层是卷积神经网络最基本的结构,一般来说,一个典型的卷积层包括数据输入、卷积计算、激活、池化等部分组成。其中,数据输入层也包括可选择性的对原始数据的处理,主要是归一化等图像白化处理;卷积计算的目的是通过卷积核与输入数据的卷积来实现图像的特征提取,得到多个特征映射;激活通过非线性的激活函数处理,提高网络的表达能力;池化层通过最大池化或者平均池化等来减小参数的规模,降低网络的复杂程度。特征映射层上所有神经元的权重相同,通过Logistic回归与ReLu激活映射图像特征,最后一个特征映射层通过softmax输出结果。以本研究为例,本文的卷积层共使用了18个卷积核,并采用最大池化来提取图像有效特征,防止过拟合,同时提高模型泛化能力;特征映射层通过ReLu函数来约束Logistic回归中可能出现的负值,最后一层通过softmax来输出分类结果。
1.3 卷积神经网络的特点与优势
卷积神经网络的模型因其权值共享的结构类似于生物神经网络,使得网络模型的复杂度大大降低而被用于图像及语音的识别,并取得了卓越的效果。另外,由于引入了GPU,以前很复杂的模型现在通过并行计算能很容易地训?,大大缩短了训练调节参数的周期,大大增强了卷积神经网络的实用性。
2 语音文件的准备
2.1 语音文件的选择
为了使卷积神经网络具有良好的性能,本研究选择了种类繁多,发音相近的江苏省方言对神经网络进行训练。因为训练卷积神经网络需要庞大的数据集,本研究按照江苏省各市分为70类,其中每类的语音文件又分为单字、词语和短句各选择300个音频文件,从而提供了足够可分为训练集与测试集的数据库。
2.2 语音文件的下载
首先登录江苏语言与文化资源库http://jsyy. /选择所要下载的音频类型与所属市,点击鼠标右键,选择其中的“查看源”选项,使用“ctrl+F”进入查找页面,查找“wav”文件,得到音频的源文件下载地址为:http://jsyy.jsjyt. /bigdata/滨海需交文件电子版/录音/方言老男/老男例句/0001小张昨天.wav 获得一个市的所有下载地址后使用Internet Download Manager进行批量下载:点击“任务”选项,选择“从剪贴板中添加批量任务”;点击“浏览”选项,选择需要保存的位置,然后点击“全部选择”,然后点击“确定”;选择“开始执行队列”,点击“确定”,开始批量下载到以县级市名字命名的指定文件夹。这样即可批量下载一个市的方言音频文件。而下载其他市的样本集只需在excel中用目标市替换下载地址中的当前市,重复以上步骤即可。
3 声谱图的转换与处理
3.1 声谱图的转换
文档评论(0)