实时语音交互RAG智能体构建教程.pdf

实时语⾳交互RAG智能体构建教程

1.系统架构概述

上图展⽰了基于Cartesia的实时语⾳Agent架构,主要包含以下组件和流程:

1.1技术栈

•CartesiaAI:⽤于最先进的⽂本转语⾳(SOTAtext-to-speech)

•AssemblyAI:⽤于语⾳转⽂本(speech-to-text)

•LlamaIndex:提供RAG功能⽀持

•Livekit:⽤于实时⾳视频编排

1.2⼯作流程

1.⾳频输⼊:⽤⼾通过克⻛输⼊语⾳

2.语⾳转⽂本:AssemblyAI将⾳频转录为⽂本

3.⽂档嵌

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档