- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
改进的构音障碍语音转文字转换
通过TTS个性化
PéterMihajlik,ÉvaSzékely,PiroskaBarta,MátéSomaKádár,GergelyDobsinszki,LászlóTóth
DepartmentofTelecommunicationsandArtificialIntelligence,BudapestUniversityofTechnology,Hungary
DivisionofSpeech,MusicandHearing,KTHRoyalInstituteofTechnology,Sweden
HungarianResearchCentreforLinguistics,HUN-REN,Hungary
SpeechTexLtd.,Hungary
InstituteofInformatics,UniversityofSzeged,Hungary
摘要—我们展示了一个针对患有严重构音障碍的匈牙利语模式。因此,调整自动语音识别(ASR)系统以转录构
本使用者开发定制语音转文字系统的案例研究。最先进的自动语音障碍言语是一个有前景的方法,正如众多先前研究所
译音识别(ASR)模型在处理零样本构音障碍语音转录时遇到困证明的那样[2]。然而,构音障碍ASR的挑战不仅仅局
难,导致高错误率。为了改善使用有限的真实构音障碍数据的表
中限于失常的言语信号:数据收集尤其困难不仅因为受影
现,我们利用个性化文本到语音(TTS)系统生成的合成语音对
1ASR模型进行微调。我们提出了一种通过利用给定演讲者的病响说话者的言语产生可能会缓慢且费力,而且由于人工
v
1前录音和说话人嵌入插值来生成可控严重程度的合成构音障碍转录(及其验证)需要特殊技能和受构音障碍影响的人
9语音的方法,从而能够在一个连续的损伤范围内对ASR模型进们的积极参与。因此,可用于研究的构音障碍言语数据
3
6行微调。在真实和合成的构音障碍语音上进行微调将字符错误率非常有限,其中很多都包含孤立的单词或短语[3]。
0(CER)从零样本情况下的36-51%降低到7.3%。我们的单语
.数据稀缺构成了重大挑战,尤其是在为构音障碍语
8言FastConformer_HuASR模型在相同数据集上微调后显
0著优于Whisper-turbo,且加入合成语音贡献了18%的相对音开发通用的语音转文本系统时,特别是在那些使用
5
2CER减少。这些结果突显了个性化ASR系统在改善严重言语者相对较少的语言中。此外,构音障碍表现为多种形
:障碍个体可访问性方面的潜力。式[2],使得设计一个能够容纳所有变异的单一ASR系
v
iIndexTerms—自动语音识别,构音障碍语音,文本到语统的做法在实际上不可行。对于辅助技术而言,个性化
x
r音合成,少样本学习单个用户的ASR是一种实用方法,因为该系统仅针对
a
I.介绍他们的语音模式进行设计[4]。
某些医疗状况可能会对个体的长期言语产生显著在这项研究中,我们展示了开发辅助匈牙利语语音
影响。例如,中风相关的脑损伤可能导致构音障碍,这转文字系统的结果,该系统适用于患有构音障碍的人,
使得理解其言语变得具有挑战性。医学上,构音障碍是并仅使用几分钟的构音障碍语音来调整ASR系统。为
一个概括术语,用于描述任何导致异常言语控制的神了减轻在大量端到端神经声学模型上的过度拟合问题,
经运动障碍。它可能会影响言语信号的
您可能关注的文档
- 胶囊-卷积康:一种医学图像分类的混合神经网络方法.pdf
- 偏斜引起的插入损耗偏差(SILD)和 FOM_SILD:量化高速通道中 P/N 偏斜效应的指标.pdf
- 基于精细调整的自监督模型的脑网络分析在脑疾病诊断中的应用.pdf
- 通过输入驱动的显著性适应启用设备端医疗 AI 助手.pdf
- 面向可扩展的 SOAP 笔记生成:一种弱监督多模态框架.pdf
- 天气编辑:使用 4D 高斯场进行可控天气编辑.pdf
- ArXivBench:在哪些情况下你应该避免使用 ChatGPT 进行学术写作.pdf
- 面向通过梯度告知贝叶斯神经网络实现可扩展的贝叶斯优化.pdf
- 深度学习方法在电池生产线上检测热失控事件.pdf
- 利用生存分析预测工业喷头的寿命.pdf
- 身份增加神经单元自动机的稳定性.pdf
- 评估风格个性化文本生成:挑战与方向.pdf
- 网络欺凌检测通过激进增强提示.pdf
- 在 Telegram 上的表情反应通常反映社会认同而非情感共鸣.pdf
- AntiCheatPT: 一种基于 Transformer 的竞技类电脑游戏作弊检测方法.pdf
- 街道视图社会性:跨越 15 个城市的城市社会行为可解释分析.pdf
- EmoAugNet: 一种信号增强的混合 CNN-LSTM 框架用于语音情感识别.pdf
- 大语言模型推理效率的 KV 缓存压缩综述.pdf
- 通过产品-流程-资源资产知识图缓解柔性生产中的不良状况.pdf
- XAG-Net: 跨切片注意力与跳过门控网络用于 2.5D 股骨 MRI 分割.pdf
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)