评估语音转文本 × 大语言模型 × 文本转语音组合在 AI 面试系统中的应用-计算机科学-大语言模型-语音转文本.pdf

下载文档

1
0
约1.36万字
约 11页
2025-07-30 发布于北京
举报
版权申诉
保障服务

评估语音转文本 × 大语言模型 × 文本转语音组合在 AI 面试系统中的应用-计算机科学-大语言模型-语音转文本.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

评估语音转文本大语言模型文本转语音组合在AI面试系统中

的应用

AliAnsariNimaYazdaniArujMahajan

StanfordUniversity,micro1UniversityofSouthernCalifornia,micro1micro1

ali@micro1.ai你妈@微瑞奥1.aiaruj@micro1.ai

AmirhosseinAfsharradSeyedShahabeddinMousavi

StanfordUniversityStanfordUniversity

afsharrad@stanford.edussmousav@cs.stanford.edu

本

译摘要

中基于语音的对话AI系统越来越依赖于结合了语音转文本(STT)、大型语言模型(LLM)和文本转语

音(TTS)组件的级联架构。然而，对生产环境中不同组件组合的系统性评估仍研究不足。我们使用超过

v30万次由AI进行的工作面试数据，进行了STTLLMTTS堆栈的大规模实证比较。我们开发了一个

5自动化评估框架，利用作为裁判的LLM来评估对话质量、技术准确性和技能评估能力。对四个生产配置

8的分析显示，GoogleSTT与GPT-4.1配对在对话质量和技准确性指标上显著优于其他替代方案。令人

6惊讶的是，我们发现客观的质量指标与用户满意度评分之间的相关性较弱，这表明基于语音的AI系统

1.的用户体验取决于技术性能之外的因素。我们的研究结果为选择多模态对话AI系统中的组件提供了实

7用指南，并为基于语音的交互提供了一个验证过的评估方法。

:1介绍

r基于语音的对话式人工智能系统正迅速改变客户服务、医疗保健、教育和招聘等领域。这些系统通常

采用级联架构，其中语音到文本（STT）引擎转录用户输入，大型语言模型（LLMs）生成响应，文本到语

音（TTS）系统合成音频输出。虽然每个组件已经在单独的情况下得到了广泛研究，但了解不同组合在实

际高风险应用中的表现仍然是一个开放的挑战。

本文解决了三个关键研究问题：

1.研究问题1:不同的语音识别（STT）大型语言模型（LLM）文本转语音（TTS）组合对基于语

音的人工智能系统的对话质量和技术准确性有何影响？

2.研究问题2：客观质量指标与用户满意度在AI进行的对话中有什么关系？

3.研究问题3:基于自动化的LLM评估能否可靠地评估基于语音的AI交互的质量？

为了回答这些问题，我们利用了一个独特的大数据集，该数据集中包含超过30万次由AI进行的工作

面试，这些面试来自一个在大规模运行的生产系统（平均每天1500次面试）。该系统能够以20-30分钟的

自适应音频访谈形式，在15种以上的语言中进行面试，可以动态地对每个候选人进行面试，无论他们处于

哪个专业领域或具备何种水平的专业知识。

我们的主要贡献是：

•在真实世界应用中首次大规模生产对比级联的STT大型语言模型文本转语音架构

•一种使用LLM作为裁判的评估框架，用于评估基于语音的对话式AI系统

•技术质量指标与用户满意度之间存在弱相关性的实证发现

•级联语音AI系统中组件相互依赖性的分析

2相关工作

2.1级联式与端到端语音语言系统

近期的研究探索了两种基于语音的对话AI的主要架构。级联方法中，STT、LLM和TTS组件依次运

行，提供了模块化和灵活性。黄等人的研究在AudioGPT中展示了这一点，通过添加现成的ASR和TTS

模块来

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

评估语音转文本 × 大语言模型 × 文本转语音组合在 AI 面试系统中的应用-计算机科学-大语言模型-语音转文本.pdf