多模态嵌入基于 的目标说话人增强.pdf

1

多模态嵌入基于

的目标说话人增强

ZhanJin,WuhanUniversity

摘要—目标说话人提取(TSE)是鸡尾酒会场景中的一个关

键挑战。虽然利用多种模态——如语音、唇部动作、面部和表情

嵌入——可以提升性能,但现实

文档评论(0)

1亿VIP精品文档

相关文档