卷积神经网络在语音识别中应用.pdf

下载文档

174
0
约6.86千字
约 4页
2015-07-27 发布于安徽
举报
版权申诉
保障服务

卷积神经网络在语音识别中应用.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

音频声学卷积神经网络在语音识别中的应用张晴晴刘勇王智超潘接林颜永红中国科学院声学研究所语言声学与内容理解重点实验室 Neural Networks，CNNs)构造模式分类器，摘要：研究了使用卷积神经网络(Convolutional 并用于连续语音识别的研究。CNNs相比于广泛使用于语音识别中的深层神经网络(Deep Neural Network，DNNs)，能在保证性能的同时，大大压缩模型的尺寸。在标准语音识别库TIMIT上的实验结果证明，相比传统DNN模型，CNN模型的识别性能更好，同时其模型规模和计算量都有明显降低。关键词：卷积神经网络连续语音识别权值共享 1 引言语音识别是人机交互的一项关键技术，在过去的几十年里取得了飞速的进展。 Mixture 传统的声学建模方式基于隐马尔科夫框架，采用混合高斯模型(Gaussian Model，GMM)来描述语音声学特征的概率分布。由于隐马尔科夫模型属于典型的浅层学习结构，仅含单个将原始输入信号转换到特定问题空间特征的简单结构， Neural 在海量数据下其性能受到限制。人工神经网络(ArtificialNetwork，ANN)是人们为模拟人类大脑存储及处理信息的一种计算模型。近年来，微软利用上下文 Neural 相关的深层神经网(ComextDependentDeep Network。CD．DNN)进行声学模型建模，并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句错误率相对下降23．2％的性能改善【l】，掀起了DNN在语音识别领域复兴的热潮。目前包括微软、IBM、Google在内的许多国际知名语音研究机构都投入了大量的精力开展DNN的研究f21。实际上，人工神经网络的应用非常广泛，种类也多种多样。在文本＼图像分割和文本检测中，另一种更为有效的人工神经网络结构被普遍使用：卷积神经网络CNNs[3]。CNNs的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。由于这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性，所以在图像处理中得到了广泛的使用。在本研究中，CNNs被引入连续语音识别中，并和目前广泛使用的DNNs模型进行了对比。相比DNNs，CNNs能够在保证识别性能的同时，大幅度降低模型的复杂度(规模)。同时，CNNs也具有更合理的物理意义，由此降低对前段语音特征提取的依赖。本研究在标准英文连续语音识别库TIMITl上面进行了实验，对CNNs的输入特征、卷积器尺寸和个数、计算量和模型规模等做了详细的介绍，实验结果证明相比传统DNN，CNN结构在获得更好识别性能的同时，降低了 http：／／www．1dc．upenn．edu／Cataiog／CatalogEntry．jsp?catalogld=LDC93SI ．．309．．模型规模和计算量。 2卷积神经网络 CNNs由一组或多组卷积层convolutional layer+采样层poolinglayer构成[3】。一个卷积层中包含若干个不同的卷积器，这些卷积器对语音的各个局部特征进行观察。采样层通过对卷积层的输出结点做固定窗长的采样，减少下一层的输入结点数，从而控制模型的复杂度。一般采样层采用最大采样算法(maxpooling)，即对固定窗长内的结点选取最大值进行输出。最后，通过全网络层将采样层输出值综合起来