话者辨识的失真测度与码本训练的算法.pdfVIP

下载本文档

8
0
约4.91千字
约 6页
2015-07-28 发布于安徽
举报
版权申诉

话者辨识的失真测度与码本训练的算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

话者辨识的失真测度和码本训练的额算法司罗胡起秀金琴 (清华大学计算机科学与技术系．100084) Email：xxs-dau@nai!．tsinghua．edtLen 摘要本文提出了说话人辩识的一种失真测度的新算法：特征分布失真测度。这种失真测度比传统的欧氏距离失真测度性能优越，从计算量上考虑，特征分布失真测度电小一些。另外还提出了一种新的码本训练算法：基于特征矢量序列修正的自学习分类决策算法。该算法是一种启发式的码本训练过程，对任意选择的一组特征矢量有最小错分率。近年来，矢量量化(VectorQuantizationVQ)技术的不断成熟和发展以及在语音编码、语音识别与合成、图象数据压缩等领域的广泛应用，使其成为数字信号处理的有利工具，并早已在说话人识别领域得到广泛的应用．通常说话人的长时间发音能够反应说话人的个性特征。不同的说话人所发出的语音信号的短时特性会在整个特征空间形成不同的分布。这种分布反应了说话人的声学个性。为了缩短识别时间和减小数据量，在很多文本无关的说话人识别系统中采用了VQ算法0][31。一．失真测度准则对于同样的训练语音数据，特征间不同的距离测度将导致不同的矢量量化结果，从而系统的识别性能也不同。F面介绍我们提出的一种失真测度准则：特征分布失真测度。 -55· 1．1特征分布失真测度每一个说话人的语音特征在特征空间中都形成了他的特定的特征聚类中心，因此可以用这些聚类中心作为说话人个性特征的描述模型，矢量量化是通过寻找特征空间概率分布的峰值点作为量化码字以刻划特征在特征空间的分布来区分不同的说话人。在码本训练完成后，为每一说话人，建立了一个码本曰5=虹I，=1，2，…，^f。每一说话人的码本口‘都将p维的特征空间划分为互不重叠的材个子空间协l』=l，2，…，M，并且它们的和构成了完整的P维特征空间Rp。即：苫c；=RPj=1，2，…，Ⅳ ，=l 。但实际上，说话人i的特征却往往并不是充满整个特征空间Rp，而只是落在说话人i的 N*B’的誊化码字及其附近的～个邻域内，从丽构成了说话人f的个性特征空间lP 它只是矗p的一个子空间。所以在计算失真时，我们要考虑说话人的测试语音在每一说话人的个性特征空问中的分布情况，我们称其为分布失真铡度。首先我们确定每一说话人的特征空间的分布a说话人f的码本B7中的码字巧的邻域半径为属于6j码字包腔内的训练特征矢量与码字巧的最大距离，我们记作∥。设测试语音特征序列为{yf}。测试语音特征空间矿与说话人i的个性特征空间甲之间的失真测度为： d6，，甲)=d‰甲h”唧z 。∞ 其中dl为当测试语音特征分布在说话人i的个性特征空间_9中时的量化失真，也为测试语音特征不在说话Ai的个性特征空间以9中时所造成的量化失真。当 ^譬{{n一6列2蔓‘时，我们就认为测试语音特征矢量y，分布在说话人f的个性特征空 √ ．56． r为测试语音特征矢量的总数。乃为分闻_p中，否则就认为是分布在特征空间垆外a 布在特征空间咋9中的特征矢量的数目。kl、t2为加权系数。我们令西=字卜圳 d2=Ri ”刍，乜=竽确=宇o 即：对每一个在说话人i的个性特征空间％，内的特征矢量，其失真为一般的欧氏意义下的最小距离，而对每一个在说话人i的个性特征空间■9外的特征矢量都产生最大领域半径Rf那样大的失真。 1．2实验数据：实验中所用到的语音数据是在电话线路上采集的内容不限的自然语流。共有33名说话人(20位男性，13位女性)，均为普通话，但略带有不同的地方口音。语音信号的采样率为8KHZ，采用8位A率压缩，在实验中被展开为16位．对每位说话人随机截取40 秒语音，其中30秒用作VlI练，10秒用作识别．说话人特征模型采用LBG