基于中文发音视觉特点的唇语识别方法研究.pdfVIP

  • 2
  • 0
  • 约2.63万字
  • 约 6页
  • 2026-04-30 发布于江西
  • 举报

基于中文发音视觉特点的唇语识别方法研究.pdf

ComputerEngineeringandApplications计算机工程与应用2022,58(4)157

基于中文发音视觉特点的唇语识别方法研究

121

何珊,袁家斌,陆要要

1.南京航空航天大学计算机科学与技术学院,南京211106

2.南京航空航天大学信息化处,南京211106

摘要:随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但针对中文无论是在数据集丰富性还

是识别准确率上均存在一定的落差。通过分析中文发音的视觉特点,提出“视觉拼音”,意图规避中文在视觉表达上

的歧义性。为了验证视觉拼音的有效性,建立了中文句子级唇语识别模型CHSLR-VP。该模型是一个端到端结构,

其中以视觉拼音为媒介,将视频帧序列转换成最终的汉字语句。通过实验得出,相比于其他唇语识别方法,基于视

觉拼音建立的CHSLR-VP模型性能更优,证明了视觉拼音的参与可明显提高中文唇语识别的准确率,为将来的相关

工作提供了基准。

关键词:唇语识别;视觉拼音;深度学习;卷积神经网络(CNN);序列到序列模型;注意机制

文献标志码:A中图分类号:TP391

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档