应用VQ的说话人识别系统的改进.docVIP

下载本文档

3
0
约3.22千字
约 2页
2017-09-12 发布于重庆
举报
版权申诉

应用VQ的说话人识别系统的改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

应用VQ的说话人识别系统的改进王蕾，张友纯，周燕（中国地质大学信息工程学院，湖北武汉 430074）摘要：说话人识别是语音识别的一种特殊方式，其目的不是识别语音内容，而是识别说话人是谁，即从语音信号中提取个人特征。采用矢量量化（VQ）可避免困难的语音分段问题和时间归整问题，且作为一种数据压缩手段可大大减少系统所需的数据存储量。本文提出了识别特征选取采用复倒谱特征参数和对应用VQ的说话人识别系统改进的一种方法。当用于训练的数据量较小时，复倒谱特征可以得到比较稳定的识别性能。VQ的改进方法避免了说话人识别系统的训练时间与使用时间相差过长从而导致系统的性能明显下降以及若利用自相关函数带来的大量运算。关键词：复倒谱；说话人识别；矢量量化；短时平均幅度差中图分类号：TN912.3 文献标识码：A 文章编号：1811-8755(2004)0619 Voiceprint identification based on improved VQ WANG Lei, ZHANG You-chun, ZHOU Yan (School of Information of China University of Geosciences, Wuhan 430074, China) Abstract: Speaker Recognition is a special mode of speech recognition. The order does not recognize speech signals. It expects who is speaking. That is distilling one’s character. Using VQ not only can avoid difficult speech subsection and time warping, but also it can reduce data store as a constringent method. This text introduces a method of digits text speaker recognition is introduced, which is based on complex cepstrum parameters and improved vector quantization modeling. When the data of training is small, complex cepstrum can recognize stably. The method of improved vector quantization modeling avoid the time of speaker recognition and because of the lasting time inducing the bad recognition. Besides avoid a lot of operation using Autocorrelation function. Key words: complex cepstrum; speaker recognition; VQ; AMDF 引言：自动说话人识别（Automatic Speaker Recognition，ASR）是要通过对说话人语音信号的分析和提取，自动确定说话人是否在所登记的说话人的集合中，以及说话的人是谁的过程。说话人识别和语音识别的区别在于，它不注重包含在语音信号中的文字符号以及语意内容信息，而是着眼于包含在语音信号中的个性特征，提取说话人的这些个人信息特征，以达到识别说话人的目的。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人得身份有着许多独特的优点，如语音是人的固有特征，不会丢失或遗忘；语音信号的采集方便，系统设备成本低；另外利用电话网络还可实现远程客户服务等等。本文讨论一种应用VQ说话人识别系统的改进方法。系统实现可采用以下方法：特征提取采用倒谱特征，模式匹配采用VQ矢量量化，并且针对VQ建模的不足提出了一改进方法。说话人识别特征的选取在说话人识别系统中特征提取是最重要的一环，特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特性。代表性的特征参数有倒谱和基音参数。试验证明，用倒谱特征可以得到比较好的识别性能，而且稳定的基音特征较难提取。一般来说，人能从声音的音色、频高、能量的大小等各种信息中知觉说话人的个性特征。所以，如果利用复数特征的有效组合，可以得到比较稳定的识别性能。