- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
音频声学
卷积神经网络在语音识别中的应用
张晴晴刘勇王智超潘接林颜永红
中国科学院声学研究所语言声学与内容理解重点实验室
Neural
Networks,CNNs)构造模式分类器,
摘要:研究了使用卷积神经网络(Convolutional
并用于连续语音识别的研究。CNNs相比于广泛使用于语音识别中的深层神经网络(Deep
Neural
Network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。在标准语音识
别库TIMIT上的实验结果证明,相比传统DNN模型,CNN模型的识别性能更好,同
时其模型规模和计算量都有明显降低。
关键词:卷积神经网络连续语音识别权值共享
1 引言
语音识别是人机交互的一项关键技术,在过去的几十年里取得了飞速的进展。
Mixture
传统的声学建模方式基于隐马尔科夫框架,采用混合高斯模型(Gaussian
Model,GMM)来描述语音声学特征的概率分布。由于隐马尔科夫模型属于典型的
浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,
Neural
在海量数据下其性能受到限制。人工神经网络(ArtificialNetwork,ANN)是
人们为模拟人类大脑存储及处理信息的一种计算模型。近年来,微软利用上下文
Neural
相关的深层神经网(ComextDependentDeep Network。CD.DNN)进行声学
模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句
错误率相对下降23.2%的性能改善【l】,掀起了DNN在语音识别领域复兴的热潮。
目前包括微软、IBM、Google在内的许多国际知名语音研究机构都投入了大量的
精力开展DNN的研究f21。
实际上,人工神经网络的应用非常广泛,种类也多种多样。在文本\图像分
割和文本检测中,另一种更为有效的人工神经网络结构被普遍使用:卷积神经网
络CNNs[3]。CNNs的权值共享网络结构使之更类似于生物神经网络,降低了网
络模型的复杂度,减少了权值的数量。由于这种网络结构对平移、比例缩放、倾
斜或者共他形式的变形具有高度不变性,所以在图像处理中得到了广泛的使用。
在本研究中,CNNs被引入连续语音识别中,并和目前广泛使用的DNNs模型进
行了对比。相比DNNs,CNNs能够在保证识别性能的同时,大幅度降低模型的
复杂度(规模)。同时,CNNs也具有更合理的物理意义,由此降低对前段语音
特征提取的依赖。本研究在标准英文连续语音识别库TIMITl上面进行了实验,
对CNNs的输入特征、卷积器尺寸和个数、计算量和模型规模等做了详细的介绍,
实验结果证明相比传统DNN,CNN结构在获得更好识别性能的同时,降低了
http://www.1dc.upenn.edu/Cataiog/CatalogEntry.jsp?catalogld=LDC93SI
..309..
模型规模和计算量。
2卷积神经网络
CNNs由一组或多组卷积层convolutional
layer+采样层poolinglayer构成[3】。
一个卷积层中包含若干个不同的卷积器,这些卷积器对语音的各个局部特征进行
观察。采样层通过对卷积层的输出结点做固定窗长的采样,减少下一层的输入结
点数,从而控制模型的复杂度。一般采样层采用最大采样算法(maxpooling),即对
固定窗长内的结点选取最大值进行输出。最后,通过全网络层将采样层输出值综
合起来
文档评论(0)