- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于Transformer的手语孤立词识别方法研究
摘要
手语是聋哑和听障人群与他人交流的主要方式,手语识别的实现,能够打破听障
人群的交流困境。手语孤立词识别是指将单个手语手势翻译成文字的过程,目前的研
究面临着手语特征冗余信息多、数据集来源有限、手语词繁多导致模型识别分类难度
大等问题。针对以上问题,本文对基于Transformer的手语孤立词识别方法进行了研
究。
针对手语特征来源单一、手语数据存在冗余背景信息的问题,本文提出了一种基
于多特征骨架的手语特征提取与优化方法。通过人体姿态估计模型,融合手部和肢体
特征,获得高精度手语骨架关键点。为了进一步提高手语特征质量,提出基于支持向
量域描述的手语骨架关键点检测算法和手语骨架区域归一化算法,实现手语特征优
化。同时针对手语语料匮乏、模型缺少训练样本的问题,本文提出了基于时空联合的
骨架数据扩增方法,从时间和空间两个维度对手语数据集进行了扩增。为模型训练提
供了更多样本数据,避免模型出现过拟合问题,并在一定程度上增强了模型的泛化能
力,为手语数据集预处理提供了新的思路。
针对目前手语孤立词识别模型对骨架特征学习不充分,无法把握手语动作共性和
关键特征的问题,本文提出了应用于手语多特征骨架,挖掘手语序列的关键动作和姿
态特征的时间注意力机制和空间注意力机制。手语骨架时空注意力机制关注了手语关
键动作在时间与空间上的表达含义。在此基础上,向Transformer模型中引入手语骨架
时空注意力机制,设计了基于时空Transformer的手语孤立词识别模型。模型以手语骨
架序列作为输入,对手语多特征骨架中时间和空间维度上的关键特征进行学习,增强
了模型理解能力,提高了模型的手语孤立词识别准确率。
本文提出的手语孤立词识别模型分别在阿根廷手语数据集LSA64、土耳其手语数
据集AUTSL和美国手语数据集WLASL100上进行了实验,在三个数据集上的Top-1准
确率分别达到了99.38%、95.46%和78.12%。本文模型在手语孤立词识别任务上准确率
有了明显提高,且能适用于多语种手语词,具有一定的泛化能力。
关键词:手语识别;Transformer;时空注意力机制;姿态估计
基于Transformer的手语孤立词识别方法研究
Abstract
Signlanguageisthemainwayfordeafandhearing-impairedpeopletocommunicatewith
others.Theimplementationofsignlanguagerecognitioncanbreakthecommunicationdilemma
ofhearing-impairedpeople.Isolatedsignlanguagerecognitiontranslatesindividualsign
gesturesintowords,whichisthefoundationofcontinuoussignlanguagerecognition.The
currentresearchonisolatedsignlanguagerecognitionfacesproblemssuchasdiversevariations
ofsignlanguagegestures,redundantinformationoffeatures,limitedsourcesofdatasets,and
difficultyinmodelunderstanding.Toaddresstheaboveproblems,thisthesisstudiesonthe
isolatedsignlanguagerecognitionmethodbasedonTransformer.
Tosolvetheproblemofsinglesourceofsi
文档评论(0)