语音声纹识别技术及应用.pptVIP

下载本文档

27
0
约8.57千字
约 75页
2021-03-18 发布于广东
举报

语音声纹识别技术及应用.ppt

2021/3/14 * 生物识别技术优势 2021/3/14 * 生物识别技术比较错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好 2s-5s 掌纹识别低 5% 使用困难 5s-10s 人脸识别低 0.2% 非常好 ≤5s 虹膜识别很低约10% 需要培训才能使用,手工操作对虹膜有困难仪器自动对准虹膜需要3s-5s,手工操作需要5s-25s 视网膜识别未知未知不好 15s-30s 声纹识别低低可以 1s-3s 签名识别低 10% 一般 5s-10s 2021/3/14 * 声纹识别技术声纹识别（又称说话人识别）技术是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的生物识别技术。 2021/3/14 * 声纹识别—基本术语类型分类: 文本相关(Text-dependent) 文本无关(Text-dependent) 任务分类: 说话人辨认(Speaker Identification) 说话人确认(Speaker Verification) UBM(Universal Background Model),通用背景模型 GMM(Gaussian Mixture Model),高斯混合模型背景噪音（环境噪音）信道差异（固定电话,手机,麦克风）身体差异,语速快慢,时间间隔 2021/3/14 * 声纹识别—基本术语 FAR（False Accept Rate）,错误接受率;FRR（False Reject Rate）,错误拒绝率。 EER（Equal Error Rate）,等错误率;即FAR=FRR时的错误率。多说话人识别,分割 2021/3/14 * 声纹识别—基本术语 0.1 0.2 0.5 1 2 5 10 20 40 40 20 10 5 2 1 0.5 0.2 0.1 错误接受的概率 (%) 错误拒绝的概率 (%) 等错误率(ERR)=1% 平衡点减少错误接受的可能，提高系统的安全。但是由于错误拒绝率高，会给用户使用带来不便。高安全性高方便性对于安全性要求不高的应用场景，可以适当提高错误接受率，使得用户容易进入系统。 DET (Detection Error Tradeoff) 曲线 2021/3/14 * 经典模型——GMM(1) GMM——高斯混合模型基本原理:根据从语音信号中提取的特征参数, 为每一个说话人建立一个GMM。为处理的方便,人为的使不同说话人的模型的概率密度函数在形式上都是一样的,不同的只是函数中的参数。优点:简单高效,可以很好的描述从语音信号中提取的特征参数等不规则的数据。 GMM是当今应用于说话人识别的最主流模型 2021/3/14 * 经典模型——GMM(2) 一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到,如下: 其中M是混合模型的阶数,X是一个D维随机向量 wi是混合权重,满足: bi(X)是子分布,每个子分布是D维的联合高斯概率分布,表示为: 是均值向量, 是协方差矩阵 2021/3/14 * 经典模型——GMM(3) 完整的高斯混合模型由参数——均值向量、协方差矩阵和混合权重共同描述。因此,一个模型可表示为如下一个三元组: GMM计算结构: 2021/3/14 * 经典模型——GMM(4) GMM的说话人鉴别(Speaker Identification)系统 2021/3/14 * UBM UBM——通用背景模型 UBM也是一个GMM,只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布,这种特征是大多数说话人的共性特征。 2021/3/14 * GMM-UBM 建模说话人需要建立自己的模型时,就可以通过自适应UBM来得到个性特征,即修正后的参数,从而得到自己的GMM。 GMM-UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型 2021/3/14 * 说话人确认系统

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

语音声纹识别技术及应用.pptVIP