CN120256628A 一种基于关键词的文件信息识别方法及系统 (北京长河数智科技有限责任公司).docxVIP

  • 0
  • 0
  • 约1.92万字
  • 约 30页
  • 2026-01-19 发布于重庆
  • 举报

CN120256628A 一种基于关键词的文件信息识别方法及系统 (北京长河数智科技有限责任公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120256628A(43)申请公布日2025.07.04

(21)申请号202510737549.7

(22)申请日2025.06.04

(71)申请人北京长河数智科技有限责任公司地址100160北京市丰台区汽车博物馆西

路8号院3号楼7层705

申请人长河信息股份有限公司

太原政通云科技有限公司

(72)发明人张輝宁素云贺一美冯璟

GO6FGO6FGO6NGO6N

40/30(2020.01)

40/284(2020.01)

3/04(2023.01)

3/08(2023.01)

(74)专利代理机构深圳科润知识产权代理事务

所(普通合伙)44724专利代理师刘强强

(51)Int.CI.

GO6F16/35(2025.01)

GO6F16/31(2019.01)

GO6F16/36(2019.01)

权利要求书3页说明书10页附图3页

(54)发明名称

一种基于关键词的文件信息识别方法及系

(57)摘要

CN120256628A本发明提供一种基于关键词的文件信息识别方法及系统,获取现有文件,基于现有文件建立文件数据库,根据获取的预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果,基于BM25模型获取现有文件与查询关键词的相关性评分,基于相关性评分对关键词第一聚类结果进行优化聚类,获取关键词第二聚类结果,根据关键词第二聚类结果结合电磁场模拟方式构建关键词语义关联磁场,获取用户历史查询数据,并基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果,基于关键词第三聚类结果为用户在文件数据库中识别匹配对

CN120256628A

基于现有文件建立文件数据库,基于预设行

基于现有文件建立文件数据库,基于预设行

业术语数据对文件数据库内现有文件进行聚→S1类,获取关键词第一聚类结果

建立BM25模型,将关键词第一聚类结果导入至BM25模型获取关键指标信息,动态修正饱和度参数与长度调整参数,并基于BM25模型获取现有文件与查询关键词的相关性评分

基于相关性评分进行优化聚类,获取关键词第二聚类结果

基于关键词第二聚类结果与电磁场模拟建立

关键词语义关联磁场

获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果

基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件

CN120256628A权利要求书1/3页

2

1.一种基于关键词的文件信息识别方法,其特征在于,包括有以下步骤:

获取现有文件与用户的查询关键词,基于现有文件建立文件数据库,获取预设行业术语数据,并建立行业术语数据库,基于预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果;

建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数,所述饱和度参数表示为k1,所述长度调整参数表示为b,基于BM25模型获取现有文件与查询关键词的相关性评分;

基于相关性评分进行优化聚类,获取关键词第二聚类结果;

基于关键词第二聚类结果与电磁场模拟建立关键词语义关联磁场;

获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果;

基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件。

2.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正饱和度参数与长度调整参数,包括:

对关键词第一聚类结果进行结构化处理,生成簇ID-关键词列表映射表;

基于簇ID-关键词列表映射表建立标准倒排索引,通过将第一聚类结果中簇的维度信息增加至所述标准倒排索引使得关键词第一聚类结果集成至所述标准倒排索引;

基于标准倒排索引中的每个簇统计关键指标信息,并根据所述关键指标信息动态修正k1与b,获取修正饱和度参数与修正文档

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档