本文意在处理说话人识别中的一个分支说话人确认.docVIP

本文意在处理说话人识别中的一个分支说话人确认.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本文意在处理说话人识别中的一个分支说话人确认

芝麻开门 PAGE PAGE 6 本文意在处理“说话人识别”中的一个分支“说话人确认”的问题。解决问题的想法是从语音中提取出足以区别于其他人的声音的个人特征,将这些特征参量化。以某一个特定人的声音的特征参量为标准模板,定义其他人与该特定人的声音之间的距离测度,规定一个阈值,这样,标准模板、距离和域值就组成了一个说话人确认系统。对一个待测的声音,系统将它与标准模板匹配,计算距离并根据此距离是否在规定阈值之内来判断待测的说话人就是特定的说话者。解决问题的关键是声音的个人特征的提取。本文采用的方法是对声音信号作短时傅里叶变换,从它的功率谱图中找出具有代表性的一些波峰所对应的频率,用这些特征频率值作成一个特征向量。用某个特定人声音的特征向量为标准向量F,定义待测声音的特征向量G与F之间的距离函数D,给定一个阈值P。由F,D和P构成说话人确认系统。方法比较粗略,但“说话人确认”在许多方面仍有待于完善,笔者仅仅是做一些初步的摸索。 语音中包含的第一意义的信息是与语言意义内容相关的音韵性信息;第二意义主要是讲话人的个人信息。提取个人信息并判断出是谁的声音称为“说话人识别”。“说话人识别”包括“说话人鉴别”和“说话人确认”。前者是把待测说话人的语音判定为多个参考说话人之中的某一个;后者则是根据待测说话人的语音,确定为是否与其所声称的参考说话人相符。 “说话人识别”的基本原理主要包括两阶段,即训练和识别。在训练阶段,系统的每个使用者说出若干个训练语句,系统据此建立每个使用者的模板和模板参数。在识别阶段,待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。在说话人确认中,通过判断测试音与所生成的说活人的模型的匹配距离是否小于一定阈值做出判断。其原理图如下: 模型参数模型训练 模型参数 模型训练 判决策略匹配距离特征提取输入语音 判决策略 匹配距离 特征提取 识别结果 说话人识别可以分为两种:一种是预先确定识别用语的方法(发音内容依存型);另一种是无论讲什么话都可进行识别的方法(发音内容独立型)。从声音中准确地提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用固定声音内容的方法来提高识别率。 多年来,人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究,得到许多有意义的结果,例如:线性预测系数或其派生系数,由语音频谱直接导出的参数,其他鲁棒性系数包括Mel频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱,混合参数等。当然没有一种是十全十美的。 二、模型假设 模型中处理的对象是数字声音信号。一个原始的声音信号,经过取样、量化、编码等处理变成了数字信号。取样既是把时间上的连续波形,用时间上离散的各时点值的序列来表示。根据奎斯特取样定理。一个连续的带限信号能被一个离散取样序列所代替而不会有任何信息的丢失。量化将模拟信号波形表示成一系列脉冲,这会造成一定程度的量化失真。我们是通过Windows自带的录音机获得这种数字声音信号的。而录音设备和外界环境都会对声音信号造成一定的影响。 声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在振幅信息中,相位信息一般不起作用。在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),通过研究频谱和与频谱相关联的特征获得声音的特性。 语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此,语音信号常常可以假定为短时平稳的。在10~30ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样我们可以采用平稳的分析方法来处理。 由以上的分析可以提出以下几点假设: 将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。 录音设备和外界环境对声音信号的影响可以忽略。 声音特征基本反映在振幅信息中。 从时域变换到频域后,语音特征体现在它的频谱中,忽略频谱失真。 语音信号是短时平稳的。 三、建模与分析 该模型采用的是声音内容依存型的说话人确认系统,需要先让系统对使用者说某个特定词的语音信号进行学习。该特定词就成为系统确认通过的“秘语”。也就是说想让系统确认通过,首先得知道这个“秘语”。这里,我们把这个“秘语”设定为汉语的“开门”一词。当然这个“秘语”是可以改变的。 1)语音个人特征的提取 我们通过Windows自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图1给出某人说三次“开门”时的波形图。 图1(采样频率为22050Hz,横轴为时间,单位时间1/22050s,纵轴为振幅) 从图1中可以看出,虽然同一人说的都是同一个词,但三个波形图还是有一定差别的。所以即便声音特

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档