- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GMM的算法在语音检出系统中的应用研究.doc
基于GMM的算法在语音检出系统中的应用研究
摘 要: 高斯混合模型(GMM)由于通过改变高斯的混合度,能够逼近任意概率分布,所以在语音识别领域应用广泛。对高斯混合模型的训练,常见的训练方法是最大似然估计(MLE),这种训练方法能最大程度拟合所有样本的分布,但没有考虑模型之间的相互影响,导致识别过程会出现混淆情况;区分性模型训练算法,适合应用于大数据量复杂组合类别的区分问题。这里提出采用的区分性模型训练方法,其原则是最小化分类错误风险,通过更精确细致地刻画不同模型之间的分类面,提升识别的效果。实验结果表明,该训练方法比最大似然估计的训练方法在多类别语音检出任务中具有更好的识别效果。
关键词: 高斯混合模型; 最大似然估计; 区分性模型训练; 语音检出
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2015)13?0059?03
Abstract: Gaussian mixture model (GMM) can approximate any probability distribution by changing Gaussian mixedness, so it is widely used in voice recognition domain. Maximum likelihood estimation (MLE) is a common training method for GMM training, which can fit the distribution of all samples to the greatest extent. The interplay between models isn′t considered in MLE, which leads to confusion appearing in recognition process. The discriminative model training algorithm is suitable for distinguishing the categories of large amount data complex combination. In this paper, application of the discrimination training algorithm is proposed, whose principle is to minimize the risk of classification errors. The recognition effect is improved through more precisely and meticulously describing classification facet between different models. The experimental results show that the training method has better recognition effect than maximum likelihood estimation in multi?class voice detection task.
Keywords: GMM; MLE; discriminative model training; voice detection
0 引 言
语音识别技术飞速发展,各种语音检出算法的提出如雨后春笋,但都是基于语音信号特征,或基于语音信号统计特性,或是基于信号特征与统计特性相结合的方法,各种算法各有优劣,适用对象不同。综合文献[1?5]可知,基于短时能量和过零率的算法,适用于信噪比较高的场合,但难以区分清音和噪声;基于自相关相似距离算法,总的来说与HMM算法的效果大致相同,但是对于结尾的判断却优于HMM模型,这是因为语音大多以浊音结尾,此时自相关法的判断精度较高,但对于清音开头的语音,尤其是[s],[ks],[n]等音节,自相关算法的检测精度就不高;基于高斯混合模型(Gaussian Mixture Model,GMM)的算法,分类较细,提供了完整的基于数据的识别框架,具有良好的推广性和扩展性。
在GMM框架里,主要的问题是如何根据有限的数据产生对应的GMM模型,目前常见的训练方法是采用最大似然估计(Maximum Likelihood Estimation,MLE),该方法基于MLE规则,最大程度拟合所有样本的分布,模型参数不断更新,直到观察序列的概率提高到某些极限点。实际上,由于其没有考虑声学模型之间的相互影响,在训练语料量比较大时,识别过程中
文档评论(0)