- 1
- 0
- 约1.45万字
- 约 9页
- 2026-03-06 发布于北京
- 举报
视听语音增强:架构设计与部署策略
AnisHamadouche,HaifengLuo,MathiniSellathuraiandTharmRatnarajah
摘要
本文介绍了一种新的基于人工智能的视听语音增强(AVSE)系统,并提出了部署架构的比较性能分析。所提出的AVSE
系统集成了卷积神经网络(CNNs)用于频谱特征提取,以及长短时记忆(LSTM)网络用于时间建模,通过音频和视觉线索
的多模态融合实现了强大的语音增强。我们研究了多种部署场景,包括基于云、边缘辅助和独立设备实现,并评估它们在
语音质量提升、延迟和计算开销方面的性能。实验在异构网络条件下(以太网、Wi-Fi、4G和5G)进行,以评估处理延
迟、通信延迟与感知语音质量之间的权衡。结果显示,尽管基于云的部署实现了卓越的增强效果,边缘辅助架构提供了延
迟与可懂度之间最佳折中方案,在5G和Wi-Fi6条件下满足实时要求。研究结果为在多种应用领域选择和优化AVSE部
署架构提供了实际指南,从助听设备到远程呈现和工业通信。
您可能关注的文档
- M3-Net:一种无图 MLP 基础的成本效益交通预测模型.pdf
- 使用平行文本行图像和基于自注意力特征距离的损失训练 Kindai OCR.pdf
- LLM 驱动的自适应 6G 准备无线体域网:调查与框架.pdf
- VISOR:基于视觉输入的转向技术以实现 Vision-Language 模型中的输出重定向.pdf
- SharpXR: 针对儿童胸部 X 光片的结构感知去噪.pdf
- AZRA:使用增强现实扩展兽形机器人的情感能力.pdf
- POMO+:利用 POMO 中的起始节点解决容量车辆路径问题.pdf
- 通过基于边界的对象修改在资源约束下增强小型 LLM 的对齐.pdf
- 简短证明:有限 Frobenius 硬币问题的精确解法.pdf
- 架构具有长上下文的 LLM 加速器与打包预取调度程序和超大容量片上内存.pdf
原创力文档

文档评论(0)