CN119296516A 基于rag的领域化语音识别方法及系统 (中科南京人工智能创新研究院).docxVIP

  • 0
  • 0
  • 约4.34万字
  • 约 49页
  • 2026-01-26 发布于重庆
  • 举报

CN119296516A 基于rag的领域化语音识别方法及系统 (中科南京人工智能创新研究院).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119296516A(43)申请公布日2025.01.10

(21)申请号202411807582.4

(22)申请日2024.12.10

(71)申请人中科南京人工智能创新研究院

地址211135江苏省南京市江宁区创研路

266号麒麟人工智能产业园3号楼3楼

(72)发明人吴浩然郭紫杰徐波

(74)专利代理机构北京中先生知识产权代理事务所(普通合伙)16063

专利代理师蔡冬婷

(51)Int.CI.

G1OL15/02(2006.01)

G1OL15/04(2013.01)

G10L15/06(2013.01)

G10L15/16(2006.01)

G10L15/183(2013.01)

G10L15/18(2013.01)G10L15/26(2006.01)GO6F16/31(2019.01)GO6F16/334(2025.01)GO6F16/36(2019.01)

权利要求书4页说明书19页附图3页

(54)发明名称

基于RAG的领域化语音识别方法及系统

(57)摘要

CN119296516A本发明公开了一种基于RAG的领域化语音识别方法及系统,该方法包括获取原始领域文档集,通过主题分类、段落切分和句子切分构建分层文档结构,执行向量化处理生成多粒度向量矩阵集,建立层次化知识向量索引结构;对实时音频流进行多尺度时频分析,提取并增强声学特征,生成多尺度特征张量;对特征张量执行自适应分块和递进式注意力处理,构建概率估计模型,生成候选文本序列;基于多维查询向量在知识索引中执行多层检索,生成相关知识片段;对特征进行空间映射和动态注意力处理,执行概率优化解码得到最终识别文本。本发明通过知识增

CN119296516A

步51.获取原始领域文档集,对原始领域文档集进行主票分类,获得主想美别集;对

步51.获取原始领域文档集,对原始领域文档集进行主票分类,获得主想美别集;对主飘美别集进行段著切分,得到段落集;对段落集进行句子切分,得到句子集;将主题类别集、段落集、句子集整合,生成分层文档结构;对分层文档结构中各层文本进行向量化处理,生成多粒度向量矩阵集;基于多粒度向量矩阵集,构建检索

索引结构;

学砝取交时高统证产对高盖持证量备行整时数分5;特盛产下文特描证:篝条叉聘趋牌写多尺度频谐特征融合压结,轴出多尺度特征张量;

步骤53、对多尺度特征张量执行自适应分块处理,得到特征分块序列;对特征分块序列计算递进式注意力,得到注意力特征序列:基于注意力特征序列,构建概率估计模型,生成层次概率矩阵集;对层次概率矩阵集执行多束解码,得到候选文本序列集合;

步擅54.对候选文本序列集合进行多维度特征表示,生成多维查询向量;基于多维查询向量,在层次化知识向量索引结构中执行多层检索,得到多层检索结果集;基于多层检索结果集和候选文本序列集合,计算多维相关度,得到排序后知说片段集;对排序后知识片段集执行上下文优化,生成相关知识片段集;

步擅55、基于多尺度特征张量和相关知识片段集,进行空间映射,得到统一特征空间矩阵;对统一特征空同矩阵执行动态注意力计算,得到融合特征张量;对融合特征张量进行上下文增强编码,得到增强特征矩阵;对增强特征矩阵执行概率优化解码,得到最终识别文本,

CN119296516A权利要求书1/4页

2

1.基于RAG的领域化语音识别方法,其特征在于,包括如下步骤:

S1、获取原始领域文档集,对原始领域文档集进行主题分类,获得主题类别集;对主题类别集进行段落切分,得到段落集;对段落集进行句子切分,得到句子集;将主题类别集、段落集、句子集整合,生成分层文档结构;对分层文档结构中各层文本进行向量化处理,生成多粒度向量矩阵集;基于多粒度向量矩阵集,构建检索索引,得到层次化索引结构;将层次化索引结构与分层文档结构结合,构建层级映射关系,输出层次化知识向量索引结构;

S2、获取实时音频流,对实时音频流进行多尺度时频分析,生成多尺度频谱特征;基于多尺度频谱特征,提取声学特征,得到增强特征集;对增强特征集进行上下文编码,得到上下文特征矩阵;将上下文特征矩阵与多尺度频谱特征融合压缩,输出多尺度特征张量;

S3、对多尺度特征张量

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档