基于矩阵正态分布和GMM融合的说话人识别研究.pdfVIP

下载本文档

0
0
约7.54千字
约 6页
2018-01-11 发布于广东
举报
版权申诉

基于矩阵正态分布和GMM融合的说话人识别研究.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

光电信息技术与光电产业 7】9 基于矩阵正态分布和GMM融合的说话人识别① 王宏昌吉学院，新疆维吾尔自治区昌吉市，831100 摘要介绍了常用的文本有关型说话人识别方法和基于混合高斯分布(GMM)的文本无关型说话人识别方法。提出一种基于矩阵正态分布(MND)的文本有关型说话人识别方法，以及基于MND和GMM融合的说话人识别框架。该识别框架能兼顾文本有关说话人识别的高效性和文本无关说话人识别的普适性。关键词说话人识别矩阵正态分布GMM模型融合引言语音是人类用来沟通信息的最有效、最方便的通信方式。由于人在发音器官上的生理差异，以及后天形成的语音行为上的差异，导致每个人的语音都带有强烈的个人色彩。这就意味着每个人的语音中都蕴含着与众不同的个人特征。说话人识别的任务就是从语音中提取出说话人特有的个性特征(又称为声纹)，并利用这些个性特征识别出说话人的身份。随着计算机技术的发展，特别是语音通信产品的广泛普及，声纹在金融、证券、信息等的安全认证方面，在日常的智能人机对话和个性化服务方面，在公安侦察、司法鉴定、军事安全，甚至医疗诊断等诸多方面都显示出了极大的应用价值和广泛的应用前景，成为当今语音信号处理和生物特征识别领域的重要研究方向之一。 j pendent，TID)的说话人识别。其中，前者可以利用已知文本提供的大量信息，因此在同等条件下能获得比后者更好的识别效果，但是限定文本对某些应用来说可能很不方便。相比之下，后者比前者的限制少，因此适用领域更广泛，但是实现起来更困难。一、常用的说话人识别方法 (一)概述文本有关说话人识别的常用方法主要有基于模板匹配(patternmatch)的长时统计法、动态时间规 time 整法(dynamic neighber，NN)和矢量量化法(vectorquanti- warping，DTW)、最小近邻法(nearest markov zation，VQ)，以及基于概率模型的隐马尔科夫模型(hiddenmodel，HMM)等。其中，长时统计法通常是说话人语音谱等特征的长时平均，其区分能力有限；DTW对孤立词的识别性能较好，目前在说话人识别中应用不广；基于VQ的方法分别为每个说话人和测试语音生成特征码本(含多个码字)，然后将测试语音的码本与每个说话人的码本进行对比并给出判决结果。直到目前为止，基于VQ的方法 ① 基金项目：新疆维吾尔自治区青年教师启动基金项目(XJEDU2006S34)。 720 第五届博士生学术年会论文集仍然是最常用识别方法之一；HMM可以描述语音随时间变化的情况，在文本有关的说话人识别中取得 mixture 了较好的识别效果。在文本无关的说话人识别领域，高斯混合模型(gaussianmodel，GMM)的识别性能好于HMM，是目前主流的识别方法。 (二)文本无关说话人识别的概率模型和GMM 设说话人的特征矢量为z，且z的分布是连续的，则说话人模型可以用z的概率密度函数表示。给定一段语音和一组参考说话人模型执}s一1，…，S}后，提取出给定语音的特征矢量序列X一{五lt=l，…，n，则X 由第s个说话人产生的概率为P(丸I x)-垡兰掣，其中，p(xi九)是模型s产生序列x的概率密度；P (九)是说话人5的先验概率Ip(X)是X来自任意说话人的先验概率密度。一般假定每个说话人的先验概 Xs)P(；ts)。则率都相等；假定p(X)XCT任何说话人都相等，是X的平均概率密度，即户(x)一∑p(X 说话人识别就是求：