2026《声纹识别之语音信号预处理分析》3200字.docVIP

  • 1
  • 0
  • 约4.26千字
  • 约 8页
  • 2026-03-14 发布于湖北
  • 举报

2026《声纹识别之语音信号预处理分析》3200字.doc

PAGE

PAGE1/22

声纹识别之语音信号预处理分析

目录

TOC\o1-3\h\u19229声纹识别之语音信号预处理分析 1

30976(一)人声发音过程原理与离散时域模型 1

5157(二)全卷积时域音频分离网络 2

5041.时域语音分离问题定义 3

127152.卷积编码器与解码器 3

210523.估计分离声音信号的掩码 4

204794.时间卷积分离网络 5

11524(三)语音信号端点检测 5

299411.分帧与加窗 5

67362.短时能量与短时过零率 6

92543.双门限端点检测法 7

(一)人声发音过程原理与离散时域模型

声纹识别,即说话人识别算法的研究目的为通过人声语音信号中的隐含特征识别说话人的身份并加以验证。要解决人声语音信号的隐含特征识别问题,研究者必须首先了解人类发声的过程与原理,以及发音过程中产生的声音经过采样后在时域中呈现何种形式。

人在发声主要涉及呼吸系统的各个器官,其最主要的发声部位为气管上端由四块软骨组成的喉气管完成。人在发声时,气流从肺部经过气管呼出,经过两片声带之间的空隙,即声门(Glottis),来产生声音;产生的声音则通过由口腔、鼻腔和咽腔所组成的通道,即声道(VocalTract),来传输;最终通过口鼻向外辐射引起传播介质,主要是空气,的振动而形成语音。

图2-1人声发音过程的离散时域模型

要使用计算机等数字化工具对语音信号进行分析,则必须在离散时域中对语音信号的产生进行建模,如图2-1所示。该模型为大多数语音相关领域中研究和应用的基础,主要由激励部分和调制部分组成。该模型激励部分主要分为清音与浊音两个分支,调制部分则分为声道模型与辐射模型两个模块。

由于人声发音过程的激励方式不同,以及口腔、鼻腔和咽腔组成的声道形状不同,人类可以发出无穷多种声音。同时,由于每个人的身体构造不同且蕴含不同相对稳定的特性,每个人发出的声音均具有一些独有的特性。这些特性在人耳的听觉反应中表现为不同人的声音具有不同的音色(Timbre),而在计算机识别领域,人们将其称为声纹(Voiceprint)。

(二)全卷积时域音频分离网络

图2-1给出了人声发音过程的离散时域模型,并从理论上得到作为语音的离散时域信号。但在现实应用中,麦克风等声音传感器的原理为感受声音传播介质的振动,并根据该振动产生相关的电信号。在声纹识别的工作中,声音传感器所探测到的声音信号的组成部分如式(2-1)所示,其中为图2-1所示的人声信号,则为传感器所处环境音信号,在本文中被视为噪音信号。

(2-1)

要使声音传感器所处的环境仅存在待识别说话人所发出的声音而不存在其他环境音,即且,是不现实的,基于这种理论环境所设计出的声纹识别方法或设备显然存在鲁棒性差,很难投入实际应用等问题。因此,在进行声纹识别工作之前,首先要将分离为与。

近些年来,说话人无关的单通道语音分离方法已经取得了很大的进步,但其中绝大部分方法在准确性与计算成本方面的表现皆不尽人意,其主要存在的问题有信号幅值与相位的解耦以及信号分离视频表现的次优性等问题。为解决该问题,美国康奈尔大学的YiLuo等人提出了一种全卷积时域音频分离网络——Conv-TasNet。

Conv-TasNet是一种End-to-End时域语音分离的深度学习框架,其网络结构由三个处理阶段组成,分别为编码器,音频分离网络和解码器,如图2-2所示。

图2-2全卷积时域音频分离网络结构示意图

该模型中,首先将语音信号通过编码器模块将混合信号的短片片段进行编码并转换为中间特征空间中的相应表示形式,本文将其简称为特征序列;随后,将混合特征序列通过分离网络来估计每个声源的掩码;最后将得出的掩码通过解码器模块转换来重建原有的声音波形。

1.时域语音分离问题定义

时域语音分离问题可以定义为从给定的混合信号中估计出个声源信号,即如式(2-2)所示。

(2-2)

2.卷积编码器与解码器

待分离的混合声音信号可以被切片为段长度为的混合声音帧,切片后的信号可用表示,为混合声音帧的索引。为表达简洁,本文在表示时将删除索引并以表示混合声音帧。进行一维卷积运算后可转换为维表示,其过程如式(2-3)所示。

(2-3)

其中,包含了个向量,即编码器的基函数且每个向量的长度均为。理论上,是一个可选的激活函数。为保证运算结果非负,本文中取为如式(2-4)所示的整流线性函数。

(2-4)

通过编码器得到特征序列之后,模型中必须有可以解码特征序列的模块,即解码器。解码器的运算形式为编码器的逆运算,即一维转置卷积运算,可将其表示为式(2-5)所示的矩阵乘法。

(2-5)

其中,为的重建波形,包含了个向量,即解码器

文档评论(0)

1亿VIP精品文档

相关文档