CN119296516A 基于rag的领域化语音识别方法及系统 (中科南京人工智能创新研究院).pdfVIP

  • 0
  • 0
  • 约4.21万字
  • 约 27页
  • 2026-01-26 发布于重庆
  • 举报

CN119296516A 基于rag的领域化语音识别方法及系统 (中科南京人工智能创新研究院).pdf

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119296516A

(43)申请公布日2025.01.10

(21)申请号202411807582.4G10L15/18(2013.01)

G10L15/26(2006.01)

(22)申请日2024.12.10

G06F16/31(2019.01)

(71)申请人中科南京人工智能创新研究院

G06F16/334(2025.01)

地址211135江苏省南京市江宁区创研路

G06F16/36(2019.01)

266号麒麟人工智能产业园3号楼3楼

(72)发明人吴浩然郭紫杰徐波

(74)专利代理机构北京中先生知识产权代理事

务所(普通合伙)16063

专利代理师蔡冬婷

(51)Int.Cl.

G10L15/02(2006.01)

G10L15/04(2013.01)

G10L15/06(2013.01)

G10L15/16(2006.01)

G10L15/183(2013.01)

权利要求书4页说明书19页附图3页

(54)发明名称

基于RAG的领域化语音识别方法及系统

(57)摘要

本发明公开了一种基于RAG的领域化语音识

别方法及系统,该方法包括获取原始领域文档

集,通过主题分类、段落切分和句子切分构建分

层文档结构,执行向量化处理生成多粒度向量矩

阵集,建立层次化知识向量索引结构;对实时音

频流进行多尺度时频分析,提取并增强声学特

征,生成多尺度特征张量;对特征张量执行自适

应分块和递进式注意力处理,构建概率估计模

型,生成候选文本序列;基于多维查询向量在知

识索引中执行多层检索,生成相关知识片段;对

特征进行空间映射和动态注意力处理,执行概率

优化解码得到最终识别文本。本发明通过知识增

A强和多层次特征处理,提升了专业领域语音识别

6的准确性和鲁棒性。

1

5

6

9

2

9

1

1

N

C

CN119296516A权利要求书1/4页

1.基于RAG的领域化语音识别方法,其特征在于,包括如下步骤:

S1、获取原始领域文档集,对原始领域文档集进行主题分类,获得主题类别集;对主题

类别集进行段落切分,得到段落集;对段落集进行句子切分,得到句子集;将主题类别集、段

落集、句子集整合,生成分层文档结构;对分层文档结构中各层文本进行向量化处理,生成

多粒度向量矩阵集;基于多粒度向量矩阵集,构建检索索引,得到层次化索引结构;将层次

化索引结构与分层文档结构结合,构建层级映射关系,输出层次化知识向量索引结构;

S2、获取实时音频流,对实时音频流进行多尺度时频分析,生成多尺度频谱特征;基于

多尺度频谱特征,提取声学特征,得到增强特征集;对增强特征集进行上下文编码,得到上

下文特征矩阵;将上下文特征矩阵与多尺度频谱特征融合压缩,输出多尺度特征张量;

S3、对多尺度特征张量执行自适应分块处理,得到特征分块序列;对特征分块序列计算

递进式注意力,得到注意力特征序列;基于注意力特征序列

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档