科大讯飞语种识别系统的介绍.pptVIP

下载本文档

6
0
约2.38千字
约 15页
2019-07-11 发布于安徽
举报
版权申诉

科大讯飞语种识别系统的介绍.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 安徽科大讯飞信息科技股份有限公司Anhui USTC iFlyTEK Co., LTD 语种识别系统介绍提纲语种识别系统框架 Acoustic-GMM系统介绍 Acoustic-GSV系统介绍语种识别系统框架现有语种识别系统的主流方法包括基于Acoustic的方案和基于Phone Recognize的方案，这两种系统由于建模方法等的差异，具有较好的互补性图1：语种识别系统框架 Acoustic系统介绍图2：Acoustic系统框架 Acoustic系统基于Acoustic的语种识别由于其稳定性和鲁棒性，在语种识别中获得的广泛的应用，是历届NIST LRE比赛中不可缺少的基本系统之一。Acoustic系统又包括GMM-MMI 系统和GMM-SVM两种建模方式： Acoustic系统--GMM-MMI系统框架图3 GMM-MMI系统流程图 GMM-MMI系统可以分成三大块：特征提取模块、模型训练模块以及测试模块，下面分别介绍三个部分特征提取模块（1） 1） MFCC：语种识别系统中，仅使用MFCC（Mel-Frequency Cepstral Coefficient）的C0~C6前7阶参数，后面在此基础上，进行SDC扩展。 2）VTLN 声道长度规整（Vocal Tract Length Normalization，VTLN），将每个人的声道规整到统一的长度上，用来减弱不同发音人带来的影响。 3）RASTA RelAtive SpecTrAl这个词组的简称，是Hynek Hermansky等人根据人类语音听觉感知对于激励源缓变不敏感的这种特性，提出的一种对于语音参数的时间轨迹进行滤波，以便从语音的参数表示中减小非语音部分的频谱部分的方法，是一种经验性的滤波器：图4 特征提取顺序特征提取模块（2） 4） SDC: Shifted Delta Cepstra 也称为移位差分倒谱特征特征提取模块（3）（5）Voice Activity Detection--VAD对识别性能影响很大，在语种识别系统中主要采用基于能量四门限的VAD技术（6）倒谱均值相减（Cepstral Mean Subtraction，CMS）基于不变信道的假设一种外部信道估计。信道的噪声可以看成是信道固定的系统畸变和随机信道传输噪声（认为是白噪声）的和。倒谱参数上减去均值，相应的也就去除了调制噪声。（7）特征高斯化语种识别所用参数，本身都是随机矢量，因而具有相应的概率分布，训练和识别信道的不匹配也就体现在概率分布的差别上。受实际环境的影响，特征参数的概率分布往往发生改变。对特征参数进行规整，使得训练和识别时候的特征参数的概率分布比较接近，这样两者之间不匹配的问题就应该能得到改善。（8）特征端FA 特征域方法的因子分析可以当成一种鲁棒性前端的算法，就是对特征直接去掉噪声的部分，得到相对“干净”的数据，主要在于去噪。 GMM-MMI系统模型训练 UBM训练： K-Means聚类得到UBM模型的初始化模型 EM算法迭代训练得到UBM模型各语种GMM训练各语种数据在UBM模型基础上MLE估计出各语种模型 2. MMI区分性准则下训练增加各语种之间的区分度图5 UBM-GMM训练步骤 GMM-MMI高斯后端训练高斯后端分类器包括LDA变换矩阵和各语种模型的单高斯的GMM模型。开发集的选择：一般要包括和测试集一样的语种类别，并且数据类型要和测试集尽量的相似，并且不能和训练集有任何的重合，否则会造成开发集得分和测试集得分mismatch LDA训练：各语种的测试得分向量通过LDA降维，提取更有区分性的分量，将原始的N维得分向量减为维数为N-1（N为语种总种类）。各语种单高斯模型的训练：在开发集上利用LDA得到的各语种的得分向量，训练各语种的单高斯模型（每个语种一个模型）。图6 高斯后端训练步骤 GMM-MMI系统测试流程图7 GMM-MMI测试流程 Acoustic系统—GMM-SVM系统图8 GSV系统框图 GMM-SVM系统模型训练部分三个关键部分 GMM Super Vector：每条语音，采用最大后验概率（Maximum a posteriori，MAP）准则，从UBM 中自适应得到这条语音的GMM 模型，然后将所有高斯的每一维均值向量按照顺序排列起来，构成一个超矢量作为SVM的输入，就称为GMM Super Vector 2. SVM模型的均值核函数和均值方差核函数 GMM只更新均值时 GMM同时更新均值方差 3. Model-Pushing技术谢谢谢谢！