UDM 系列在真实生活口吃语音应用中的部署：一项临床评估框架.pdfVIP

下载本文档

0
0
约1.67万字
约 9页
2026-02-26 发布于北京
举报

UDM 系列在真实生活口吃语音应用中的部署：一项临床评估框架.pdf

UDM系列在真实生活口吃语音应用中的部署：一项

临床评估框架

EricZhang,LiWei,SarahChen,MichaelWang

SSHealthTeam,AIforHealthcareLaboratory

ericzhang@

Abstract

本结巴和不流畅的语音检测系统历来面临着准确性和临床可解释性之间的权

译衡。虽然端到端深度学习模型实现了高性能，但它们的黑盒性质限制了临床

中上的应用。本文探讨了无约束失语建模（UDM）系列——由伯克利开发的当

前最先进的框架，它结合了模块化架构、显式的音素对齐和可解释的输出以

v实现现实世界的临床部署。通过涉及患者和认证言语语言病理学家（SLPs）

4的广泛实验，我们证明UDM实现了最先进的性能（F1:0.89s0.04），同时提

0供了具有临床意义的可解释性分数（4.2/5.0）。我们的部署研究表明有87%

4的临床医生接受率和34%的诊断时间减少。结果强有力地证明了UDM代表

1了一条向临床环境中人工智能辅助言语治疗的实际路径。

21介绍

x口吃和不流畅的言语几十年来一直是言语病理学和计算言语研究中的一个核心话题。不流畅

r现象，如重复、延长和阻塞，不仅是语言病理学家（SLPs）的关键诊断标志，也对个体的沟

通能力、教育成就和生活质量产生强烈影响。全球范围内的口吃患病率约为1%，特别是在

获得专业医疗服务有限的地区影响尤为严重。

传统检测不流利言语的方法严重依赖于手工制作的声学特征（如：抖动，震颤，音高中断）

和流畅度指标（如：每分钟音节数，语速）。虽然这些方法提供了一些可解释性，但它们难以

在不同说话者和临床背景下进行泛化。手动设计的特征工程过程通常只捕捉到表面级别的声

学属性，忽略了不流利言语模式所具有的复杂时间动态性和上下文依赖关系。

随着深度学习的兴起，端到端（E2E）模型已被广泛用于自动检测不流畅现象。这些方法通

常直接在音频波形或频谱图上操作，使用CNNs、RNNs或Transformers来分类不流畅行为。

尽管此类模型展示了提高的原始准确性，但它们存在三个基本限制：

1.缺乏可解释性：黑盒架构没有为其预测提供透明的推理，这使得临床医生不愿意在

敏感的医疗场景中采用它们。最近的一项调查显示，78%的言语语言病理学家不会

信任没有明确解释的人工智能系统。

Correspondingauthor

Preprint.

2.有限可控性：端到端模型倾向于捕捉全局相关性，但很难适应不同年龄段和严重程

度的多样化的不流利模式。

3.部署差距：临床环境需要能够不仅提供预测，还能提供中间解释、错误分析和人工

验证的白盒模型。

为了解决这些挑战，我们分析了无约束失ﬂuency模型（UDM）系

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

UDM 系列在真实生活口吃语音应用中的部署：一项临床评估框架.pdfVIP