基于MLP语音音位属性检测技术研究开题报告.docx

下载文档 降价啦

0
0
约4.8千字
约 6页
2018-02-04 发布于浙江
举报
版权申诉
保障服务

基于MLP语音音位属性检测技术研究开题报告.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于MLP语音音位属性检测技术研究开题报告

基于MLP的语音音位属性检测技术的研究一、选题依据1.选题目的和意义目前，索引建立大多采用传统的自动语音识别方法，以其识别结果作为索引。语音识别以数据驱动为基础，通过大量的相关统计数据对相应的声学模型进行训练，从而实现对该语音信号的识别，然而这种生成的方法忽略了各种语音知识，且在低信噪比和复杂的环境下性能急剧下降。为了获得更加准确的语音识别结果，学者开始把声学、语言学及韵律等语音知识融入到ASR中.音位属性作为一种重要的语音知识，能够有效的描述人类在发音过程中口腔内部物理形态，并且对语音识别性能的提升具有很好的辅助作用。目前，常用的音位属性有英语发音方式和支配音韵属性，它们都可以作为区分性特征来表示音素。语音属性检测系统(ASAT)是将概率统计方法与语音发音知识相结合的一种语音识别系统，相比于传统的语音识别系统，该系统主要以检测得到的各层次的音位属性为基础，构造、训练更加合理精确的能够融合多层次特征的分类模型。多层感知器(MLP)是一种人工神经网络,它使用输入与输出之间的多层加权接.MLP 的结构基本类似于一套级联的感知器,其中每一格处理单元都有一格相对复杂的输出函数,从而增强网络的性能。所以，基于MLP的因为属性检测能获得更加准确的语音识别效果。2.研究现状分析传统的语音识别系统都是以音素为最小识别单元，但是音素的动态范围较大，即使同一个说话人在不同场合说出相同的内容，表现在声学特征上的差异性也非常大，导致分类器性能下降。研究发现：语音信号可以从产生过程中的声道特征参数来定义，即音位属性(Phonological Attributes Features)。与常用的声学特征不同，它是一种描述语音产生过程的特征参数，包括声带是否振动、口型、舌位的高低等口腔内部的物理形态，这类特征揭示了隐藏在音素背后的最基本的特性。音位属性是与语言无关的，依照不同语言的发音特点，每种语言总能被映射到一组音位属性上。因此，可以将一种语言环境下训练好的检测模型，直接应用于其它语言下的识别，而无需担心模型训练及语料的问题。目前，常用的音位属性有英语发音方式(Sound Pattern of English, SPE)和支配音韵属性(Government Phonology, GP)。在音位属性的检测方面，多层感知器(Multiple Layer Perception, MLP)的应用最为广泛。2000 年，爱丁堡大学的 Simon King等应用 MLP 对三种音位属性进行检测，该文以帧级准确率作为评判标准，在 SPE、 MV(Multi Valued)和 GP 上的检测率分别为 52%、 53%和 59%，若将检测结果映射到最相近的帧上，则检测率分别为 59%、60%和 61%。同时，作者指出支配音韵特征在描述音素的区分性方面最好，能够为后端事件整合器提供最丰富的语音信息。针对由音素转化而来的属性参数与实际语音信号之间存在较大差异的问题，Wester等人于 2004 年提出了基于动态贝叶斯网络的嵌入式训练准则，使得模型在训练过程中能够根据非同步位置的数据调整模型参数。目前，主流的声学模型均已被应用于音位属性的检测，按照输入特征的类型可以分为帧级与段级检测器。2005 年，Jinyu Li等人在分析比较分帧和分段检测器性能时引入新的衡量标准，在该文的实验环境下，证实了分段检测器效果更好。2008 年，Jun Hou等在综合分析分帧检测器及分段检测器性能的基础上，将基于帧级检测器的得分融入基于段级的音素识别中，进一步提高了音位属性的检测率。基于系统组合的检测及建模方法同样取得较好的效果， 2005 年， Frankel 和 King提出了基于 ANN和 DBN 组合的识别方法，其新颖之处是替换掉原来 DBN 中的高斯混合模型(Gaussian Mixture Model, GMM)，取而代之的是以 ANN 的输出后验概率来描述观测特征的生成过程，该方法融合了 ANN 在区分性训练方面的优点以及 DBN 在刻画具有内部依赖性特征上的能力。近年来，基于 MLP 的层级语音事件检测器同样获得了广泛的应用。首先采用低层MLP 进行较“粗”地分类，而高层的 MLP 在低层粗分的基础上再进一步细分。这样将同一个分类任务交由两个 MLP 分两个阶段来完成，减轻了每个 MLP 的负担，分类效果更好。但是这种基于层级的事件检测器也存在错误传递的问题，即前一级的检测错误会对下一级产生影响。受层级 MLP 的启发，Brno 大学进一步提出了基于 Bottle-neck 结构的识别系统，与常见的 MLP 不同，其隐含层的层数较多，通常可以达到 5 层甚至更多，且每层中神经元个数的选取与分类任务相关。2011 年，Fabio Valente等在基于广播信道的普通话识别中，选择