CN119296516A 基于rag的领域化语音识别方法及系统（中科南京人工智能创新研究院）.docxVIP

下载本文档

0
0
约4.34万字
约 49页
2026-01-26 发布于重庆
举报

CN119296516A 基于rag的领域化语音识别方法及系统（中科南京人工智能创新研究院）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119296516A(43)申请公布日2025.01.10

(21)申请号202411807582.4

(22)申请日2024.12.10

(71)申请人中科南京人工智能创新研究院

地址211135江苏省南京市江宁区创研路

266号麒麟人工智能产业园3号楼3楼

(72)发明人吴浩然郭紫杰徐波

(74)专利代理机构北京中先生知识产权代理事务所(普通合伙)16063

专利代理师蔡冬婷

(51)Int.CI.

G1OL15/02(2006.01)

G1OL15/04(2013.01)

G10L15/06(2013.01)

G10L15/16(2006.01)

G10L15/183(2013.01)

G10L15/18(2013.01)G10L15/26(2006.01)GO6F16/31(2019.01)GO6F16/334(2025.01)GO6F16/36(2019.01)

权利要求书4页说明书19页附图3页

(54)发明名称

基于RAG的领域化语音识别方法及系统

(57)摘要

CN119296516A本发明公开了一种基于RAG的领域化语音识别方法及系统，该方法包括获取原始领域文档集，通过主题分类、段落切分和句子切分构建分层文档结构，执行向量化处理生成多粒度向量矩阵集，建立层次化知识向量索引结构；对实时音频流进行多尺度时频分析，提取并增强声学特征，生成多尺度特征张量；对特征张量执行自适应分块和递进式注意力处理，构建概率估计模型，生成候选文本序列；基于多维查询向量在知识索引中执行多层检索，生成相关知识片段；对特征进行空间映射和动态注意力处理，执行概率优化解码得到最终识别文本。本发明通过知识增

CN119296516A

步51.获取原始领域文档集，对原始领域文档集进行主票分类，获得主想美别集；对

步51.获取原始领域文档集，对原始领域文档集进行主票分类，获得主想美别集；对主飘美别集进行段著切分，得到段落集；对段落集进行句子切分，得到句子集；将主题类别集、段落集、句子集整合，生成分层文档结构；对分层文档结构中各层文本进行向量化处理，生成多粒度向量矩阵集；基于多粒度向量矩阵集，构建检索

索引结构；

学砝取交时高统证产对高盖持证量备行整时数分5;特盛产下文特描证：篝条叉聘趋牌写多尺度频谐特征融合压结，轴出多尺度特征张量；

步骤53、对多尺度特征张量执行自适应分块处理，得到特征分块序列；对特征分块序列计算递进式注意力，得到注意力特征序列：基于注意力特征序列，构建概率估计模型，生成层次概率矩阵集；对层次概率矩阵集执行多束解码，得到候选文本序列集合；

步擅54.对候选文本序列集合进行多维度特征表示，生成多维查询向量；基于多维查询向量，在层次化知识向量索引结构中执行多层检索，得到多层检索结果集；基于多层检索结果集和候选文本序列集合，计算多维相关度，得到排序后知说片段集；对排序后知识片段集执行上下文优化，生成相关知识片段集；

步擅55、基于多尺度特征张量和相关知识片段集，进行空间映射，得到统一特征空间矩阵；对统一特征空同矩阵执行动态注意力计算，得到融合特征张量；对融合特征张量进行上下文增强编码，得到增强特征矩阵；对增强特征矩阵执行概率优化解码，得到最终识别文本，

CN119296516A权利要求书1/4页

1.基于RAG的领域化语音识别方法，其特征在于，包括如下步骤：

S1、获取原始领域文档集，对原始领域文档集进行主题分类，获得主题类别集；对主题类别集进行段落切分，得到段落集；对段落集进行句子切分，得到句子集；将主题类别集、段落集、句子集整合，生成分层文档结构；对分层文档结构中各层文本进行向量化处理，生成多粒度向量矩阵集；基于多粒度向量矩阵集，构建检索索引，得到层次化索引结构；将层次化索引结构与分层文档结构结合，构建层级映射关系，输出层次化知识向量索引结构；

S2、获取实时音频流，对实时音频流进行多尺度时频分析，生成多尺度频谱特征；基于多尺度频谱特征，提取声学特征，得到增强特征集；对增强特征集进行上下文编码，得到上下文特征矩阵；将上下文特征矩阵与多尺度频谱特征融合压缩，输出多尺度特征张量；

CN119296516A 基于rag的领域化语音识别方法及系统（中科南京人工智能创新研究院）.docxVIP