卷积神经网络在语音识别中应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
音频声学 卷积神经网络在语音识别中的应用 张晴晴刘勇王智超潘接林颜永红 中国科学院声学研究所语言声学与内容理解重点实验室 Neural Networks,CNNs)构造模式分类器, 摘要:研究了使用卷积神经网络(Convolutional 并用于连续语音识别的研究。CNNs相比于广泛使用于语音识别中的深层神经网络(Deep Neural Network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。在标准语音识 别库TIMIT上的实验结果证明,相比传统DNN模型,CNN模型的识别性能更好,同 时其模型规模和计算量都有明显降低。 关键词:卷积神经网络连续语音识别权值共享 1 引言 语音识别是人机交互的一项关键技术,在过去的几十年里取得了飞速的进展。 Mixture 传统的声学建模方式基于隐马尔科夫框架,采用混合高斯模型(Gaussian Model,GMM)来描述语音声学特征的概率分布。由于隐马尔科夫模型属于典型的 浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构, Neural 在海量数据下其性能受到限制。人工神经网络(ArtificialNetwork,ANN)是 人们为模拟人类大脑存储及处理信息的一种计算模型。近年来,微软利用上下文 Neural 相关的深层神经网(ComextDependentDeep Network。CD.DNN)进行声学 模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句 错误率相对下降23.2%的性能改善【l】,掀起了DNN在语音识别领域复兴的热潮。 目前包括微软、IBM、Google在内的许多国际知名语音研究机构都投入了大量的 精力开展DNN的研究f21。 实际上,人工神经网络的应用非常广泛,种类也多种多样。在文本\图像分 割和文本检测中,另一种更为有效的人工神经网络结构被普遍使用:卷积神经网 络CNNs[3]。CNNs的权值共享网络结构使之更类似于生物神经网络,降低了网 络模型的复杂度,减少了权值的数量。由于这种网络结构对平移、比例缩放、倾 斜或者共他形式的变形具有高度不变性,所以在图像处理中得到了广泛的使用。 在本研究中,CNNs被引入连续语音识别中,并和目前广泛使用的DNNs模型进 行了对比。相比DNNs,CNNs能够在保证识别性能的同时,大幅度降低模型的 复杂度(规模)。同时,CNNs也具有更合理的物理意义,由此降低对前段语音 特征提取的依赖。本研究在标准英文连续语音识别库TIMITl上面进行了实验, 对CNNs的输入特征、卷积器尺寸和个数、计算量和模型规模等做了详细的介绍, 实验结果证明相比传统DNN,CNN结构在获得更好识别性能的同时,降低了 http://www.1dc.upenn.edu/Cataiog/CatalogEntry.jsp?catalogld=LDC93SI ..309.. 模型规模和计算量。 2卷积神经网络 CNNs由一组或多组卷积层convolutional layer+采样层poolinglayer构成[3】。 一个卷积层中包含若干个不同的卷积器,这些卷积器对语音的各个局部特征进行 观察。采样层通过对卷积层的输出结点做固定窗长的采样,减少下一层的输入结 点数,从而控制模型的复杂度。一般采样层采用最大采样算法(maxpooling),即对 固定窗长内的结点选取最大值进行输出。最后,通过全网络层将采样层输出值综 合起来

文档评论(0)

july77 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档