- 2
- 0
- 约2.06万字
- 约 6页
- 2025-10-16 发布于北京
- 举报
2025年第19届自动面部和手势识别国际会议(FG)
从视觉语音识别转移到德语手语的口型识别的迁移学习
DinhNamPhamandEleftheriosAvramidis
SpeechandLanguageTechnologyDepartment,GermanResearchCenterforArtificialIntelligence
(DFKI),Berlin,Germany
Abstract—手语识别(SLR)系统主要关注手动手势,但我们建议利用视觉语音识别(VSR)的数据集,也称为唇
非手动特征如嘴部动作,特别是发音,提供了有价值的语言信读,它比自动口型识别更广泛地被研究。VSR数据集专
息。本研究直接将发音实例分类为口语中的相应单词,并探讨注于通过嘴部动作捕捉单词的发音,这与口型识别的目
了从视觉语音识别(VSR)到德语手语中发音识别的迁移学习
标紧密相关。在此工作中,我们探索了从VSR到口型识
潜力。我们利用三个VSR数据集:一个使用英语,一个使用
无关词汇的德语,另一个使用与发音数据集相同目标词的德语,别的迁移学习策略,以提高性能并缓解数据限制。具体
以调查任务相似性在该设置中的影响。我们的结果显示,多任来说,我们利用三个唇读数据集:一个英文数据集、一个
务学习提高了发音识别和VSR准确性以及模型鲁棒性,表明包含与目标口型无关词汇的德语数据集以及一个包含相
发音识别应被视为与VSR相关但独立的任务。本研究通过提
同目标词汇的德语数据集,这些词汇与我们创建的手语
出从VSR到SLR数据集中发音注释有限的知识迁移,为手语
口型数据集中的一致。这种设置使我们能够研究唇读数
本识别领域做出了贡献。
据集与目标口型任务之间的相关程度如何影响识别性能。
译I.介绍为了促进这一分析,我们采用了三种不同的迁移学习方
中作为完全成熟的视觉手动自然语言,手语(SLs)通法:微调、领域自适应和多任务学习,在此情境下比较它
2过视觉感知,并使用手动手势(手部动作)以及面部表们的有效性。据我们所知,本工作代表了首次尝试:(1)
v
4情、身体姿势和眼神等非手动信号来表达。因此,手语使用相应的口语词汇作为标签进行口型识别和(2)从视
8对于聋哑人和听力受损社区来说是一种重要的交流方式。觉语音识别向口型识别应用迁移学习,提出了一种改进
7
3因此,自动手语识别(ASLR)引起了研究界的越来越多口型识别并应对标注数据有限挑战的新方法。
1.的关注,以促进手语使用者与非使用者之间的沟通[16]。
5II.相关工作
0虽然ASLR系统主要使用手动手势工作,利用非手
5动特征已成为一种新兴趋势。这些信号可以提供有价值有限数量的研究探讨了使用VSR方法来增强手语识
2
:的信息,因为它们是SL中的一个基本组成部分,通常与别。在[2]进行的一项非常简短的调查中,确定了两种可
v
i口语中的语调[8]相比。其中一个非手动标记就是嘴部动以从VSR衍生出来并可以应用的方法:(a)识别特定单
x
r作。尽管从2015年到2020年间发布的SLR结果中只有词或短语或(b)识别一组预定义的口型或嘴部动态以生
a
5%包含了签名人嘴部特征[16],但在ASLR模型中包含成单词。这两种方法之一通常被大多数相关工作所采用。
这些特征已被证明能带来更好的性能[21],[27],[24]。在在[24]中,一个基于音位的发音识别器被整合进了一个
您可能关注的文档
- CycleDistill:使用 大型语言模型通过循环蒸馏进行机器翻译的自举过程.pdf
- UltraAD:通过少量样本 CLIP 适应进行细粒度超声异常分类.pdf
- 考虑固定和移动充电器的混合充电站规划与运营强化学习.pdf
- 舞动聊天:大型语言模型引导的音乐到舞蹈生成.pdf
- MLOps 与微服务:海事领域的案例研究.pdf
- 学习感知相关的时域包络形态变换.pdf
- 伊奥拉·沃克:一种用于音乐创作的移动脚步检测系统.pdf
- 语言狼人杀:通过语音化的代理狼人游戏框架吸引用户参与.pdf
- 面向患者特定的部分点云到表面补全在图像引导的肝介入术中从术前到术中的配准.pdf
- 2026年中国生态养猪场市场数据调查、监测研究报告.docx
原创力文档

文档评论(0)