浅述说话人识别技术.docVIP

下载本文档

5
0
约3.03千字
约 7页
2018-11-23 发布于福建
举报
版权申诉

浅述说话人识别技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅述说话人识别技术

浅述说话人识别技术　　摘要：随着科学技术的快速发展，生物特征识别技术得到了越来越多的研究和应用，这其中包括说话人识别技术的研究和应用。该文对说话人识别的概念、原理及其识别方法做了简要介绍，提出了时下的研究的热点难点，并对这项技术的发展进行了展望。　　关键词：说话人识别；特征提取；识别模型；判决策略　　中图分类号：TP18 文献标识码：A文章编号：1009-3044(2011)11-2657-02 　　随着全球信息化的快速发展，电子商务等信息技术得到了广泛的应用，人们发现，传统的使用密码来认证用户的方法变的越来越脆弱。在这种背景下，解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。在众多的生物认证技术中，说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展，展现了广阔的应用前景。　　说话人识别技术包括说话人辨认技术和说话人确认技术，他们在本质上是一致的，唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息，而说话人确认技术是确定某段语音信息是不是某人所说。两者是一对多和一对一的关系。每个人的发音因为受到声道和发音特点等影响，总是存在一些代表自己特征的元素，说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。语音识别技术的应用有着非常多的优点，同时目前的研究也存在一些还没有突破的难点，但我相信，不久的将来，说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。　　1 特征提取　　特征提取就是提取语音信号中表征说话人的基本特征，此特征应能有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。提取的说话人的特征参数应满足相应的条件：对局外变量不敏感，如说话人的情绪的影响；能够长期地保持稳定；可以经常表现出来；易于对之进行测量，与其它特征不相关。　　语音信号是一种携带着各种信息的非平稳的时变信号。在说话人识别系统中，首先我们需要对语音信号进行分析，提取特征参数。然后对语音信号进行预处理。语音信号经过预处理过后，会产生很大的数据量。在提取说话人特征时，就需要通过去除原来语音中的冗余信息来减小数据量。说话人识别技术中的测试音和训练语音都只有在经过特征提取后才能与说话人模型进行比较、匹配和模型训练。因此，特征提取是说话人识别技术中的关键步骤，其好坏直接影响到整个系统的性能。　　1.1 时域特征矢量　　由于不稳定和表征语音特征较差，现在已应用很少。通常是指将一帧语音信号中的各个时域采样直接构成一个矢量；如时域上的幅度（或能量）、平均过零率等。　　1.2 变换域矢量　　对一帧语音信号进行某种变换以后产生的相应矢量，如线性预测系数、LPC 倒谱系数、线谱对参数、共振峰率、短时谱等。倒谱系数描述了人的声道特征，其中基于声道全极点模型的LPC 倒谱系数（LPCC）具有广泛的应用。具有更好的识别性能的是基于符合人耳听觉的Mel 频率尺度提取出的倒谱系数MFCC 比LPCC 在去噪方面更出色。近年来，应用更为广泛的是小波变换，他的分辨率可变、无平稳要求等优点。　　2 识别模型　　所谓的识别模型，是指用什么模型来描述说话人的语音特征在特征空间的分布。对于说话人识别系统，特征参数被提取出来后，需要用识别模型为说话人建模，并对特征进行分类，以确定属于哪一个说话人。下面分别简要介绍这几种分类模型。　　2.1 矢量量化模型　　矢量量化是将若干个幅度连续取值的时域采样信号分成一组，即构成矢量，然后用若干离散的数字值（或标号）来表示各种矢量。用矢量量化模型识别说话人就是对某一说话人的特征矢量序列通过聚类算法可以聚为M类，求每类中所有矢量的均值就得到了每类的码本矢量，M个码本矢量构成了该说话人的矢量量化模型。在识别过程中，将每一特征矢量到某一说话人的M个码本矢量的最小距离进行累加，累加和最小的说话人作为识别结果。矢量量化模型分类特性较好，可以通过对长时语音特征参数统计信息的量化来区分说话人，还能压缩数据。用它建立识别模型，在数据量、训练时间、识别响应等方面都具有很强的优势。　　2.2 隐马尔可夫模型　　马尔可夫链推广的隐马尔可夫模型(HMM)也是一种比较常用的模型。在HMM模型中，观察到的事件与状态通过一组概率分布相联系，是一个双重随机过程，其中一个是马尔可夫链，它描述了状态之间的转移；另一个随机过程描述了状态和观察值之间的统计对应关系。隐马尔可夫模型是HMM模型的隐含状态，可以观察到的是状态产生的观察值。HMM模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述，又能用状态转移规律刻画平衡之间的时变过程，所以能统计地吸收发音的声学特性和时间上的变动。这是80年代语音信号数字处理技术的一项重大进展。HM