- 1
- 0
- 约4.26千字
- 约 8页
- 2026-03-14 发布于湖北
- 举报
PAGE
PAGE1/22
声纹识别之语音信号预处理分析
目录
TOC\o1-3\h\u19229声纹识别之语音信号预处理分析 1
30976(一)人声发音过程原理与离散时域模型 1
5157(二)全卷积时域音频分离网络 2
5041.时域语音分离问题定义 3
127152.卷积编码器与解码器 3
210523.估计分离声音信号的掩码 4
204794.时间卷积分离网络 5
11524(三)语音信号端点检测 5
299411.分帧与加窗 5
67362.短时能量与短时过零率 6
92543.双门限端点检测法 7
(一)人声发音过程原理与离散时域模型
声纹识别,即说话人识别算法的研究目的为通过人声语音信号中的隐含特征识别说话人的身份并加以验证。要解决人声语音信号的隐含特征识别问题,研究者必须首先了解人类发声的过程与原理,以及发音过程中产生的声音经过采样后在时域中呈现何种形式。
人在发声主要涉及呼吸系统的各个器官,其最主要的发声部位为气管上端由四块软骨组成的喉气管完成。人在发声时,气流从肺部经过气管呼出,经过两片声带之间的空隙,即声门(Glottis),来产生声音;产生的声音则通过由口腔、鼻腔和咽腔所组成的通道,即声道(VocalTract),来传输;最终通过口鼻向外辐射引起传播介质,主要是空气,的振动而形成语音。
图2-1人声发音过程的离散时域模型
要使用计算机等数字化工具对语音信号进行分析,则必须在离散时域中对语音信号的产生进行建模,如图2-1所示。该模型为大多数语音相关领域中研究和应用的基础,主要由激励部分和调制部分组成。该模型激励部分主要分为清音与浊音两个分支,调制部分则分为声道模型与辐射模型两个模块。
由于人声发音过程的激励方式不同,以及口腔、鼻腔和咽腔组成的声道形状不同,人类可以发出无穷多种声音。同时,由于每个人的身体构造不同且蕴含不同相对稳定的特性,每个人发出的声音均具有一些独有的特性。这些特性在人耳的听觉反应中表现为不同人的声音具有不同的音色(Timbre),而在计算机识别领域,人们将其称为声纹(Voiceprint)。
(二)全卷积时域音频分离网络
图2-1给出了人声发音过程的离散时域模型,并从理论上得到作为语音的离散时域信号。但在现实应用中,麦克风等声音传感器的原理为感受声音传播介质的振动,并根据该振动产生相关的电信号。在声纹识别的工作中,声音传感器所探测到的声音信号的组成部分如式(2-1)所示,其中为图2-1所示的人声信号,则为传感器所处环境音信号,在本文中被视为噪音信号。
(2-1)
要使声音传感器所处的环境仅存在待识别说话人所发出的声音而不存在其他环境音,即且,是不现实的,基于这种理论环境所设计出的声纹识别方法或设备显然存在鲁棒性差,很难投入实际应用等问题。因此,在进行声纹识别工作之前,首先要将分离为与。
近些年来,说话人无关的单通道语音分离方法已经取得了很大的进步,但其中绝大部分方法在准确性与计算成本方面的表现皆不尽人意,其主要存在的问题有信号幅值与相位的解耦以及信号分离视频表现的次优性等问题。为解决该问题,美国康奈尔大学的YiLuo等人提出了一种全卷积时域音频分离网络——Conv-TasNet。
Conv-TasNet是一种End-to-End时域语音分离的深度学习框架,其网络结构由三个处理阶段组成,分别为编码器,音频分离网络和解码器,如图2-2所示。
图2-2全卷积时域音频分离网络结构示意图
该模型中,首先将语音信号通过编码器模块将混合信号的短片片段进行编码并转换为中间特征空间中的相应表示形式,本文将其简称为特征序列;随后,将混合特征序列通过分离网络来估计每个声源的掩码;最后将得出的掩码通过解码器模块转换来重建原有的声音波形。
1.时域语音分离问题定义
时域语音分离问题可以定义为从给定的混合信号中估计出个声源信号,即如式(2-2)所示。
(2-2)
2.卷积编码器与解码器
待分离的混合声音信号可以被切片为段长度为的混合声音帧,切片后的信号可用表示,为混合声音帧的索引。为表达简洁,本文在表示时将删除索引并以表示混合声音帧。进行一维卷积运算后可转换为维表示,其过程如式(2-3)所示。
(2-3)
其中,包含了个向量,即编码器的基函数且每个向量的长度均为。理论上,是一个可选的激活函数。为保证运算结果非负,本文中取为如式(2-4)所示的整流线性函数。
(2-4)
通过编码器得到特征序列之后,模型中必须有可以解码特征序列的模块,即解码器。解码器的运算形式为编码器的逆运算,即一维转置卷积运算,可将其表示为式(2-5)所示的矩阵乘法。
(2-5)
其中,为的重建波形,包含了个向量,即解码器
您可能关注的文档
- 2026《BIM技术及装配式建筑基本理论概述》1400字.docx
- 2026《CMC调制策略分析综述》2500字.docx
- 2026《PWM模块的版图设计案例分析》4000字.docx
- 2026《YOLO系列目标检测算法实现过程概述》4300字.docx
- 2026《变频电源的硬件电路设计与实现案例》4400字.docx
- 2026《变压器涌流机理分析及特征分析》7700字.docx
- 2026《常见的封装类型及其特点分析》1700字.doc
- 2026《炒菜机器人系统硬件和软件系统设计案例》4000字.doc
- 2026《车标检测软件系统的设计案例》4500字.docx
- 2026《电力设备局部放电多光谱检测结果试验分析》2200字.docx
最近下载
- 竞争法学(第四版)课件全套(王先林)第1--11讲 竞争与竞争法的若干基本问题---中国反不正当竞争法的基本制度(四).ppt
- 小学数学课程标准与教材深度解析.pptx VIP
- 《GB18587-2016 室内装饰装修材料 地毯、地毯衬垫.》.pdf VIP
- 国防动员(讲稿).doc VIP
- 岗位人才画像(经理层).xlsx VIP
- 智能垃圾分类系统外文文献翻译中英文最新 (2).doc VIP
- 2026年山西工程职业学院单招语文测试题库.docx VIP
- DB22_T 5092-2015 城镇道路养护技术规程.docx VIP
- 2022年新高考全国一卷数学解析.pdf VIP
- 2025年重庆春招考试题型及答案.doc VIP
原创力文档

文档评论(0)