语音声纹识别技术及应用.pptVIP

  • 27
  • 0
  • 约8.57千字
  • 约 75页
  • 2021-03-18 发布于广东
  • 举报
2021/3/14 * 生物识别技术优势 2021/3/14 * 生物识别技术比较 错误接受率 错误拒绝率 容易实用性 处理速度/人 指纹识别 很低 较低 好 2s-5s 掌纹识别 低 5% 使用困难 5s-10s 人脸识别 低 0.2% 非常好 ≤5s 虹膜识别 很低 约10% 需要培训才能使用,手工操作对虹膜有困难 仪器自动对准虹膜需要3s-5s,手工操作需要5s-25s 视网膜识别 未知 未知 不好 15s-30s 声纹识别 低 低 可以 1s-3s 签名识别 低 10% 一般 5s-10s 2021/3/14 * 声纹识别技术 声纹识别(又称说话人识别)技术是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的生物识别技术。 2021/3/14 * 声纹识别—基本术语 类型分类: 文本相关(Text-dependent) 文本无关(Text-dependent) 任务分类: 说话人辨认(Speaker Identification) 说话人确认(Speaker Verification) UBM(Universal Background Model),通用背景模型 GMM(Gaussian Mixture Model),高斯混合模型 背景噪音(环境噪音) 信道差异(固定电话,手机,麦克风) 身体差异,语速快慢,时间间隔 2021/3/14 * 声纹识别—基本术语 FAR(False Accept Rate),错误接受率;FRR(False Reject Rate),错误拒绝率。 EER(Equal Error Rate),等错误率;即FAR=FRR时的错误率。 多说话人识别,分割 2021/3/14 * 声纹识别—基本术语 0.1 0.2 0.5 1 2 5 10 20 40 40 20 10 5 2 1 0.5 0.2 0.1 错 误 接 受 的 概 率 (%) 错 误 拒 绝 的 概 率 (%) 等错误率(ERR)=1% 平衡点 减少错误接受的可能,提高系统的安全。但是由于错误拒绝率高,会给用户使用带来不便。 高安全性 高方便性 对于安全性要求不高的应用场景,可以适当提高错误接受率,使得用户容易进入系统。 DET (Detection Error Tradeoff) 曲线 2021/3/14 * 经典模型——GMM(1) GMM——高斯混合模型 基本原理:根据从语音信号中提取的特征参数, 为每一个说话人建立一个GMM。为处 理的方便,人为的使不同说话人的模 型的概率密度函数在形式上都是一样 的,不同的只是函数中的参数。 优 点:简单高效,可以很好的描述从语音信 号中提取的特征参数等不规则的数据。 GMM是当今应用于说话人识别的最主流模型 2021/3/14 * 经典模型——GMM(2) 一个M阶高斯混合模型的概率密度函数是由M个 高斯概率密度函数加权求和得到,如下: 其中M是混合模型的阶数,X是一个D维随机向量 wi是混合权重,满足: bi(X)是子分布,每个子分布是D维的联合高斯概 率分布,表示为: 是均值向量, 是协方差矩阵 2021/3/14 * 经典模型——GMM(3) 完整的高斯混合模型由参数——均值向量、协方差矩阵和混合权重共同描述。因此,一个模型可表示为如下一个三元组: GMM计算结构: 2021/3/14 * 经典模型——GMM(4) GMM的说话人鉴别(Speaker Identification)系统 2021/3/14 * UBM UBM——通用背景模型 UBM也是一个GMM,只是这个GMM需要用 大量的 不同说话人的语音数据经过训练来表 示说话 人无关的特征分布,这种特征是大多 数说话人的共性特征。 2021/3/14 * GMM-UBM 建模 说话人需要建立自己的模型时,就可以通过 自适应UBM来得到个性特征,即修正后的参 数,从而得到自己的GMM。 GMM-UBM优点 实现信道均衡 少量训练数据得到比较理想的说话人模型 2021/3/14 * 说话人确认系统

文档评论(0)

1亿VIP精品文档

相关文档