视听语音增强:架构设计与部署策略.pdfVIP

  • 1
  • 0
  • 约1.45万字
  • 约 9页
  • 2026-03-06 发布于北京
  • 举报

视听语音增强:架构设计与部署策略.pdf

视听语音增强:架构设计与部署策略

AnisHamadouche,HaifengLuo,MathiniSellathuraiandTharmRatnarajah

摘要

本文介绍了一种新的基于人工智能的视听语音增强(AVSE)系统,并提出了部署架构的比较性能分析。所提出的AVSE

系统集成了卷积神经网络(CNNs)用于频谱特征提取,以及长短时记忆(LSTM)网络用于时间建模,通过音频和视觉线索

的多模态融合实现了强大的语音增强。我们研究了多种部署场景,包括基于云、边缘辅助和独立设备实现,并评估它们在

语音质量提升、延迟和计算开销方面的性能。实验在异构网络条件下(以太网、Wi-Fi、4G和5G)进行,以评估处理延

迟、通信延迟与感知语音质量之间的权衡。结果显示,尽管基于云的部署实现了卓越的增强效果,边缘辅助架构提供了延

迟与可懂度之间最佳折中方案,在5G和Wi-Fi6条件下满足实时要求。研究结果为在多种应用领域选择和优化AVSE部

署架构提供了实际指南,从助听设备到远程呈现和工业通信。

文档评论(0)

1亿VIP精品文档

相关文档