使用 CONFORMER 和 CTC 算法通过六轴加速度计进行无声语音句子识别.pdfVIP

  • 0
  • 0
  • 约1.84万字
  • 约 6页
  • 2026-02-27 发布于北京
  • 举报

使用 CONFORMER 和 CTC 算法通过六轴加速度计进行无声语音句子识别.pdf

使用CONFORMER和CTC算法通过六轴加速度计进行无声语音句子识别

YudongXieZhifengHanQinfanXiaoLiweiLiangLu-QiTaoTian-LingRen

SchoolofIntegratedCircuitsandBeijingNationalResearchCenterforInformationScience

andTechnology,TsinghuaUniversity,Beijing100084,China

ABSTRACT准确的无声语音识别系统[1,2]不仅是技术进步,更是

为了改善这些个体的生活质量和安全性的必要条件。

无声语音接口(SSI)正在积极开发中,以帮助长期生

活质量下降的沟通障碍人士。然而,由于省略和连接,

本无声句子难以分割和识别。提出了一种新型的无声语

静默语音接口(SSI)已经通过多种模式进行了探

译音句子识别方法,将六轴加速度计收集到的面部运动

索,如电磁、机械、超声和视觉方法[3,4,5,6]。然

中信号转换为转录的文字和句子。基于Conformer的神

而,这些系统往往体积庞大、价格昂贵或不适合日常

3经网络结合Connectionist-Temporal-Classification算

v使用。加速度计提供了一种非侵入性、抗噪且便携的

9法获得上下文理解,并将非声学信号翻译成文字序列。

2测试结果显示,所提出的方法在句子识别方面达到了替代方案[7,8],使其适用于连续静默语音识别。

8

797.17%的准确率,超过了典型准确率为85%-95%的现

1

.有无声语音识别方法,展示了加速度计作为高精度无

2大多数无声语音识别系统仅关注词分类[9,10,11,

0声语音句子识别可用SSI模式的潜力。

512],对连续句子识别的关注有限,这涉及将无声的句

2IndexTerms—静默语音接口(SSI),六轴加速子转换为预定义词汇表中的单词序列。句子识别仍然

:

v度计,连接时序分类(CTC),Conformer。具有挑战性,原因是省略(音节丢失)和连接(词边

i

x界融合)[13]。先前的研究没有有效地解决动态且准确

r

a1.介绍地分割和识别无声语音句子的挑战[14]。虽然一些研

究人员报告了在句子识别方面的高精度,但他们的方

言语一直是人类几千年来最重要的沟通方式之法将整个句子视为单一实体,就像词级别的分类一样。

一。声学信号在我们日常生活中传递了大量的重要信所需的细微分割和动态上下文理解以实现精确的句子

息。然而,基于语音的交流在某些生理限制下无法很级别识别被忽视[14,15]。

好地进行,特别是对于有发声缺陷的人群,如喉切除

术患者。对于无声人群而言,无法有效沟通会导致严

重的社会孤立和心理压力。在紧急情况下,缺乏可靠本文介绍了一种新颖的静默语音接口(SSI)方法,

沟通方法甚至可能危及生命,因为他们无法呼救或表该方法使用六轴加速度计捕获面部运动信号,并通过

达紧急需求。因此,开发一种非侵入性、便携式且高度基于Conformer架构[16]和连接主义时间分类(CTC)

Correspondi

文档评论(0)

1亿VIP精品文档

相关文档