CN116150335B 一种军事场景下文本语义检索方法 (中国电子科技集团公司第二十八研究所).docxVIP

  • 0
  • 0
  • 约2.2万字
  • 约 31页
  • 2026-01-21 发布于重庆
  • 举报

CN116150335B 一种军事场景下文本语义检索方法 (中国电子科技集团公司第二十八研究所).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116150335B(45)授权公告日2025.07.11

(21)申请号202211630251.9

(22)申请日2022.12.19

(65)同一申请的已公布的文献号申请公布号CN116150335A

(43)申请公布日2023.05.23

(73)专利权人中国电子科技集团公司第二十八研究所

地址210046江苏省南京市栖霞区灵山南

路1号

(72)发明人孙斌韩立斌赵文成袁翔郑少秋王静周宇黎健

(74)专利代理机构江苏圣典律师事务所32237专利代理师胡建华

(51)Int.CI.

GO6F16/3329(2025.01)

GO6F16/334(2025.01)

GO6F16/338(2019.01)

GO6F16/34(2025.01)

GO6F40/216(2020.01)

GO6F40/279(2020.01)

(56)对比文件

CN113032566A,2021.06.25CN114416927A,2022.04.29

审查员高悦

权利要求书3页说明书11页附图2页

(54)发明名称

一种军事场景下文本语义检索方法

(57)摘要

CN116150335B本发明公开了一种军事场景下文本语义检索方法。一是基于军用预训练模型,构建对偶式语义检索模型,在军用语义检索数据集上训练微调,形成问答对语言表示模型,并离线获取军事文本数据语义向量库,通过向量聚类方式构建二级倒排索引;二是基于军用预训练模型,构建文本检索精排模型,在军用语义检索精排数据集上微调训练。面对实时检索任务,利用问句语言表示模型获取问句语义向量表示,通过向量相似度计算并检索,召回符合用户需求的文本集合,并使用文本检索精排模型,精准定位特定文本数据并反馈给用户。该方法能够从海量军事文本数据

CN116150335B

离线部分在线部分

离线部分在线部分

文本转向量

待检素文

文本集合

精准答案

排序定位

文本检索流程

图例:□军事文本语义检素方法

文本转向量

索引库

Query

CN116150335B权利要求书1/3页

2

1.一种军事场景下文本语义检索方法,其特征在于,包括如下步骤:

步骤1、军用预训练模型离线构建:构建军用文本语料数据集;选用开源预训练模型,在军用文本语料数据集中训练,形成军用预训练模型;

步骤2、对偶式语义检索模型离线构建:构建军用语义检索数据集;基于军用预训练模型,构建对偶式语义检索模型,在军用语义检索数据集上训练微调,生成问答对语言表示模型,包括问句语言表示模型和答案语言表示模型;收集待检索军事数据文本集合,针对待检索军事数据文本集合,利用答案语言表示模型离线生成军事文本数据语义向量库,并利用聚类算法构建二级倒排索引;

步骤3、文本检索精排模型离线构建:构建军用语义检索精排数据集,基于军用预训练模型,构建多分类精排模型,并在军用语义检索精排数据集训练微调,生成文本检索精排模型;

步骤4、面向实时任务的文本语义检索:输入用户数据需求,首先采用步骤2中生成的问句语言表示模型,获取问句语义表示向量;然后通过向量相似度计算和检索,获得与用户需求强相关的文本集合;最后使用步骤3中文本检索精排模型获得符合要求的文本答案,并反馈给用户。

2.根据权利要求1所述的一种军事场景下文本语义检索方法,其特征在于,步骤1军用预训练模型离线构建,包括如下步骤:

步骤1-1、收集军事原始语料数据;

步骤1-2、对军事原始语料数据中冗余字符、停用词和繁简字进行清洗转换数据预处理,对预处理后的数据进行分词处理,并收集现有军用信息检索和智能问答系统中语义词库、同义词林、相关词库和扩展词库中词表数据,形成军用词表列表;

步骤1-3、选择自然语言处理领域预训练模型;针对每一条军事原始语料,利用军用词表列表映射转换,即寻找每一个词对应位序将其数字化构建形成军用文本语料数据集;

步骤1-4、基于军用文本语料数据集,设置模型训练参数训练预训练模型,形成军用预训练模型。

3.根据权利要求2所述的一种军事场景下文本语义检索方法,其特征在于,步骤2对偶式语义检索模型离线构建,包括如下步骤:

步骤2-

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档