摘要
语音分离是多说话人语音识别中极具普适性和挑战性的热点问题,其起源于著名的
“鸡尾酒会问题”,旨在从混合语音信号中分离出单个语音信号。在时域分离模型中,分
离网络强大的语音序列建模能力和编码器的特征提取能力至关重要。为了进一步提升语音
分离性能,提出一种基于副语言信息辅助的通道和空间适应性融合的语音分离方法。首先,
利用Transformer结构具备的全局注意力机制和空间交互建模能力,通过优化其内部结构
来捕获局部和全局的依赖性特征;设计前向自适应模块,提高模型在通道和空间适应性方
面的建
摘要
语音分离是多说话人语音识别中极具普适性和挑战性的热点问题,其起源于著名的
“鸡尾酒会问题”,旨在从混合语音信号中分离出单个语音信号。在时域分离模型中,分
离网络强大的语音序列建模能力和编码器的特征提取能力至关重要。为了进一步提升语音
分离性能,提出一种基于副语言信息辅助的通道和空间适应性融合的语音分离方法。首先,
利用Transformer结构具备的全局注意力机制和空间交互建模能力,通过优化其内部结构
来捕获局部和全局的依赖性特征;设计前向自适应模块,提高模型在通道和空间适应性方
面的建
文档评论(0)