- 0
- 0
- 约1.67万字
- 约 9页
- 2026-02-26 发布于北京
- 举报
UDM系列在真实生活口吃语音应用中的部署:一项
临床评估框架
EricZhang,LiWei,SarahChen,MichaelWang
SSHealthTeam,AIforHealthcareLaboratory
ericzhang@
Abstract
本结巴和不流畅的语音检测系统历来面临着准确性和临床可解释性之间的权
译衡。虽然端到端深度学习模型实现了高性能,但它们的黑盒性质限制了临床
中上的应用。本文探讨了无约束失语建模(UDM)系列——由伯克利开发的当
前最先进的框架,它结合了模块化架构、显式的音素对齐和可解释的输出以
1
v实现现实世界的临床部署。通过涉及患者和认证言语语言病理学家(SLPs)
´
4的广泛实验,我们证明UDM实现了最先进的性能(F1:0.89s0.04),同时提
0供了具有临床意义的可解释性分数(4.2/5.0)。我们的部署研究表明有87%
3
4的临床医生接受率和34%的诊断时间减少。结果强有力地证明了UDM代表
1了一条向临床环境中人工智能辅助言语治疗的实际路径。
.
9
0
5
21介绍
:
v
i
x口吃和不流畅的言语几十年来一直是言语病理学和计算言语研究中的一个核心话题。不流畅
r现象,如重复、延长和阻塞,不仅是语言病理学家(SLPs)的关键诊断标志,也对个体的沟
a
通能力、教育成就和生活质量产生强烈影响。全球范围内的口吃患病率约为1%,特别是在
获得专业医疗服务有限的地区影响尤为严重。
传统检测不流利言语的方法严重依赖于手工制作的声学特征(如:抖动,震颤,音高中断)
和流畅度指标(如:每分钟音节数,语速)。虽然这些方法提供了一些可解释性,但它们难以
在不同说话者和临床背景下进行泛化。手动设计的特征工程过程通常只捕捉到表面级别的声
学属性,忽略了不流利言语模式所具有的复杂时间动态性和上下文依赖关系。
随着深度学习的兴起,端到端(E2E)模型已被广泛用于自动检测不流畅现象。这些方法通
常直接在音频波形或频谱图上操作,使用CNNs、RNNs或Transformers来分类不流畅行为。
尽管此类模型展示了提高的原始准确性,但它们存在三个基本限制:
1.缺乏可解释性:黑盒架构没有为其预测提供透明的推理,这使得临床医生不愿意在
敏感的医疗场景中采用它们。最近的一项调查显示,78%的言语语言病理学家不会
信任没有明确解释的人工智能系统。
Correspondingauthor
Preprint.
2.有限可控性:端到端模型倾向于捕捉全局相关性,但很难适应不同年龄段和严重程
度的多样化的不流利模式。
3.部署差距:临床环境需要能够不仅提供预测,还能提供中间解释、错误分析和人工
验证的白盒模型。
为了解决这些挑战,我们分析了无约束失fluency模型(UDM)系
您可能关注的文档
- 联邦自适应表决优化技术: 通过掩码最优传输在联邦学习中的精确分布对齐.pdf
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 因果反事实 RAG:将因果反事实推理整合到 RAG 中.pdf
- 多通道差分 ASR 在智能眼镜上对佩戴者语音识别的鲁棒性.pdf
- 哈希基线:在预训练模型时代重新思考.pdf
- 通过在 3D 高斯图表示中使用解析的碰撞锥屏障函数实现感知集成的安全关键控制.pdf
- GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf
- 大型语言模型系统中提示缺陷的分类法.pdf
- Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf
最近下载
- 风险分级评价方法(LEC LS)课件.pptx VIP
- TSLEA 1011.2-2024 实验室设计与建设技术规范 第2部分:化学实验室.pdf
- 2025年留置看护警务辅助人员招聘综合基础知识题库.docx
- 骨科护理MDT查房.pptx VIP
- 城乡内部空间结构(第1课时)示范公开课教学课件【鲁教版高中地理必修第二册(新课标)】.pptx VIP
- 2025年成都市中考数学试题卷(含标准答案及详解).pdf
- 英语四下Unit1大单元教学设计(人教PEP版2026新教材).pdf
- 高中一年级上学期信息科技《认识大数据》教学课件.pptx
- 大学生英语竞赛 C类核心词汇 词汇表.pdf VIP
- 职业妆容教学课件.pptx VIP
原创力文档

文档评论(0)