- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
评估语音转文本大语言模型文本转语音组合在AI面试系统中
的应用
AliAnsariNimaYazdaniArujMahajan
StanfordUniversity,micro1UniversityofSouthernCalifornia,micro1micro1
ali@micro1.ai你妈@微瑞奥1.aiaruj@micro1.ai
AmirhosseinAfsharradSeyedShahabeddinMousavi
StanfordUniversityStanfordUniversity
afsharrad@stanford.edussmousav@cs.stanford.edu
本
译摘要
中基于语音的对话AI系统越来越依赖于结合了语音转文本(STT)、大型语言模型(LLM)和文本转语
音(TTS)组件的级联架构。然而,对生产环境中不同组件组合的系统性评估仍研究不足。我们使用超过
1
v30万次由AI进行的工作面试数据,进行了STTLLMTTS堆栈的大规模实证比较。我们开发了一个
5自动化评估框架,利用作为裁判的LLM来评估对话质量、技术准确性和技能评估能力。对四个生产配置
3
8的分析显示,GoogleSTT与GPT-4.1配对在对话质量和技准确性指标上显著优于其他替代方案。令人
6惊讶的是,我们发现客观的质量指标与用户满意度评分之间的相关性较弱,这表明基于语音的AI系统
1.的用户体验取决于技术性能之外的因素。我们的研究结果为选择多模态对话AI系统中的组件提供了实
7用指南,并为基于语音的交互提供了一个验证过的评估方法。
0
5
2
:1介绍
v
i
x
r基于语音的对话式人工智能系统正迅速改变客户服务、医疗保健、教育和招聘等领域。这些系统通常
a
采用级联架构,其中语音到文本(STT)引擎转录用户输入,大型语言模型(LLMs)生成响应,文本到语
音(TTS)系统合成音频输出。虽然每个组件已经在单独的情况下得到了广泛研究,但了解不同组合在实
际高风险应用中的表现仍然是一个开放的挑战。
本文解决了三个关键研究问题:
1.研究问题1:不同的语音识别(STT)大型语言模型(LLM)文本转语音(TTS)组合对基于语
音的人工智能系统的对话质量和技术准确性有何影响?
2.研究问题2:客观质量指标与用户满意度在AI进行的对话中有什么关系?
3.研究问题3:基于自动化的LLM评估能否可靠地评估基于语音的AI交互的质量?
为了回答这些问题,我们利用了一个独特的大数据集,该数据集中包含超过30万次由AI进行的工作
面试,这些面试来自一个在大规模运行的生产系统(平均每天1500次面试)。该系统能够以20-30分钟的
自适应音频访谈形式,在15种以上的语言中进行面试,可以动态地对每个候选人进行面试,无论他们处于
哪个专业领域或具备何种水平的专业知识。
我们的主要贡献是:
1
•在真实世界应用中首次大规模生产对比级联的STT大型语言模型文本转语音架构
•一种使用LLM作为裁判的评估框架,用于评估基于语音的对话式AI系统
•技术质量指标与用户满意度之间存在弱相关性的实证发现
•级联语音AI系统中组件相互依赖性的分析
2相关工作
2.1级联式与端到端语音语言系统
近期的研究探索了两种基于语音的对话AI的主要架构。级联方法中,STT、LLM和TTS组件依次运
行,提供了模块化和灵活性。黄等人的研究在AudioGPT中展示了这一点,通过添加现成的ASR和TTS
模块来
您可能关注的文档
- 多智能体强化学习在机器人化珊瑚礁样本采集中的应用-计算机科学-强化学习-自主水下机器人.pdf
- AURA:一个用于理解、推理与注释的多模态医疗代理-计算机科学-AI 代理-视觉-语言基础模型.pdf
- 不定最小二乘问题的参数块分裂预条件子-计算机科学-机器学习-算法.pdf
- 快速配电网拓扑估计通过子集和问题-计算机科学-机器学习-配电网格-图论-电力网络拓扑.pdf
- LinkedIn 中的薄弱环节:在大语言模型时代提升假档案检测能力-计算机科学-大语言模型-虚假档案检测-对抗训练.pdf
- SIA:通过意图感知增强视觉语言模型的安全性-计算机科学-视觉-语言模型-人工智能.pdf
- 面向具有几何先验的准确单目三维人体姿态估计实时框架-计算机科学-机器学习-单目 3D 姿态估计-实时推断.pdf
- 面向工业级 CRM 系统的弱监督技术以提升 ASR 模型性能-计算机科学-自动语音识别-数据增强-模型微调.pdf
文档评论(0)