CN119296516A 基于rag的领域化语音识别方法及系统（中科南京人工智能创新研究院）.pdfVIP

下载本文档

0
0
约4.21万字
约 27页
2026-01-26 发布于重庆
举报

CN119296516A 基于rag的领域化语音识别方法及系统（中科南京人工智能创新研究院）.pdf

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119296516A

(43)申请公布日2025.01.10

(21)申请号202411807582.4G10L15/18(2013.01)

G10L15/26(2006.01)

(22)申请日2024.12.10

G06F16/31(2019.01)

(71)申请人中科南京人工智能创新研究院

G06F16/334(2025.01)

地址211135江苏省南京市江宁区创研路

G06F16/36(2019.01)

266号麒麟人工智能产业园3号楼3楼

(72)发明人吴浩然郭紫杰徐波

(74)专利代理机构北京中先生知识产权代理事

务所(普通合伙)16063

专利代理师蔡冬婷

(51)Int.Cl.

G10L15/02(2006.01)

G10L15/04(2013.01)

G10L15/06(2013.01)

G10L15/16(2006.01)

G10L15/183(2013.01)

权利要求书4页说明书19页附图3页

(54)发明名称

基于RAG的领域化语音识别方法及系统

(57)摘要

本发明公开了一种基于RAG的领域化语音识

别方法及系统，该方法包括获取原始领域文档

集，通过主题分类、段落切分和句子切分构建分

层文档结构，执行向量化处理生成多粒度向量矩

阵集，建立层次化知识向量索引结构；对实时音

频流进行多尺度时频分析，提取并增强声学特

征，生成多尺度特征张量；对特征张量执行自适

应分块和递进式注意力处理，构建概率估计模

型，生成候选文本序列；基于多维查询向量在知

识索引中执行多层检索，生成相关知识片段；对

特征进行空间映射和动态注意力处理，执行概率

优化解码得到最终识别文本。本发明通过知识增

A强和多层次特征处理，提升了专业领域语音识别

6的准确性和鲁棒性。

CN119296516A权利要求书1/4页

1.基于RAG的领域化语音识别方法，其特征在于，包括如下步骤：

S1、获取原始领域文档集，对原始领域文档集进行主题分类，获得主题类别集；对主题

类别集进行段落切分，得到段落集；对段落集进行句子切分，得到句子集；将主题类别集、段

落集、句子集整合，生成分层文档结构；对分层文档结构中各层文本进行向量化处理，生成

多粒度向量矩阵集；基于多粒度向量矩阵集，构建检索索引，得到层次化索引结构；将层次

化索引结构与分层文档结构结合，构建层级映射关系，输出层次化知识向量索引结构；

S2、获取实时音频流，对实时音频流进行多尺度时频分析，生成多尺度频谱特征；基于

多尺度频谱特征，提取声学特征，得到增强特征集；对增强特征集进行上下文编码，得到上

下文特征矩阵；将上下文特征矩阵与多尺度频谱特征融合压缩，输出多尺度特征张量；

S3、对多尺度特征张量执行自适应分块处理，得到特征分块序列；对特征分块序列计算

CN119296516A 基于rag的领域化语音识别方法及系统（中科南京人工智能创新研究院）.pdfVIP