声纹识别-公开课件.pptVIP

  • 96
  • 0
  • 约3.16千字
  • 约 19页
  • 2019-06-23 发布于广西
  • 举报
声纹识别 刘宣缇 石雪娜 唐子淑 声纹识别 1、概述 2、声纹识别系统 3、特征提取 4、模式匹配 5、应用和发展前景 简介 声纹识别(VPR) ,生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息。 声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。 原理: 人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。 分类(按任务) (1)说话人辨认(Speaker Identification) (2)说话人确认(Speaker Verification)。 前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题; 而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。 缩小刑侦范围 银行交易 声纹识别分类 分类(按类型) (1)文本相关的(Text-Dependent) (2)文本无关的(Text-Independent) 文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合。 文本无关的声纹识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。 声纹识别系统 声纹识别系统的工作过程一般可以分为两个过程:训练过程和识别过程。 无论训练还是识别,都需要首先对输入的原始语音信号进行预处理。 声纹识别系统框图 识别结果 训练 识别 训练还是识别 建立模型 声学模型 模式匹配 特征提取 语音信号 预处理 采样、量化、预加重和加窗等处理 声纹识别——特征提取 特征提取是把一帧原始语音信号转化为N维的特征矢量,运算步骤如下: 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 特征提取过程 (Process of feature extraction) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 离散余弦变换 DCT 声纹识别——建立声学模型 VQ矢量量化 矢量量化是把所有矢量(设为M 个) 进行归类, 设矢量Xi ( i = 0 ~ M - 1) 到距离最近的矢量中心Yj ( j = 0 ~ N - 1) 的量化误差为 则量化M 个矢量的平均量化误差为 通过LBG聚类算法找出能使D 达到最小的矢量中心集合。这个集合构成了一套码本,它是M 个矢量在N 维空间最佳分布的体现,即说话人发音的声学特征的体现。所有说话人码本的集合构成声学模型。 声纹识别——模式匹配 模式匹配识别判断的目的:获取表现说话人个性的特征参数的基础上,将待识别的特征参数模板或模型与训练学习时得到的模板或模型库作相似性匹配,得到特征模式之间的相似性距离度量,并选取适当的距离度量作为门限值,从而识别判断出可能结果中最好的结果。 声纹识别——模式匹配 在模式匹配中常用的方法有: (1)模板匹配方法:主要用于

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档