- 0
- 0
- 约1.92万字
- 约 30页
- 2026-01-19 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120256628A(43)申请公布日2025.07.04
(21)申请号202510737549.7
(22)申请日2025.06.04
(71)申请人北京长河数智科技有限责任公司地址100160北京市丰台区汽车博物馆西
路8号院3号楼7层705
申请人长河信息股份有限公司
太原政通云科技有限公司
(72)发明人张輝宁素云贺一美冯璟
GO6FGO6FGO6NGO6N
40/30(2020.01)
40/284(2020.01)
3/04(2023.01)
3/08(2023.01)
(74)专利代理机构深圳科润知识产权代理事务
所(普通合伙)44724专利代理师刘强强
(51)Int.CI.
GO6F16/35(2025.01)
GO6F16/31(2019.01)
GO6F16/36(2019.01)
权利要求书3页说明书10页附图3页
(54)发明名称
一种基于关键词的文件信息识别方法及系
统
(57)摘要
CN120256628A本发明提供一种基于关键词的文件信息识别方法及系统,获取现有文件,基于现有文件建立文件数据库,根据获取的预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果,基于BM25模型获取现有文件与查询关键词的相关性评分,基于相关性评分对关键词第一聚类结果进行优化聚类,获取关键词第二聚类结果,根据关键词第二聚类结果结合电磁场模拟方式构建关键词语义关联磁场,获取用户历史查询数据,并基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果,基于关键词第三聚类结果为用户在文件数据库中识别匹配对
CN120256628A
基于现有文件建立文件数据库,基于预设行
基于现有文件建立文件数据库,基于预设行
业术语数据对文件数据库内现有文件进行聚→S1类,获取关键词第一聚类结果
建立BM25模型,将关键词第一聚类结果导入至BM25模型获取关键指标信息,动态修正饱和度参数与长度调整参数,并基于BM25模型获取现有文件与查询关键词的相关性评分
基于相关性评分进行优化聚类,获取关键词第二聚类结果
基于关键词第二聚类结果与电磁场模拟建立
关键词语义关联磁场
获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果
基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件
CN120256628A权利要求书1/3页
2
1.一种基于关键词的文件信息识别方法,其特征在于,包括有以下步骤:
获取现有文件与用户的查询关键词,基于现有文件建立文件数据库,获取预设行业术语数据,并建立行业术语数据库,基于预设行业术语数据对文件数据库内现有文件进行聚类,获取关键词第一聚类结果;
建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正BM25模型内的饱和度参数与长度调整参数,所述饱和度参数表示为k1,所述长度调整参数表示为b,基于BM25模型获取现有文件与查询关键词的相关性评分;
基于相关性评分进行优化聚类,获取关键词第二聚类结果;
基于关键词第二聚类结果与电磁场模拟建立关键词语义关联磁场;
获取用户历史查询数据,基于用户历史查询数据建立个性化动态权重,根据个性化动态权重与关键词语义关联磁场获取关键词第三聚类结果;
基于关键词第三聚类结果为用户在文件数据库中识别匹配对应现有文件。
2.根据权利要求1所述的一种基于关键词的文件信息识别方法,其特征在于,所述建立BM25模型,将关键词第一聚类结果进行结构化处理并导入至BM25模型,基于BM25模型获取关键指标信息,根据关键指标信息动态修正饱和度参数与长度调整参数,包括:
对关键词第一聚类结果进行结构化处理,生成簇ID-关键词列表映射表;
基于簇ID-关键词列表映射表建立标准倒排索引,通过将第一聚类结果中簇的维度信息增加至所述标准倒排索引使得关键词第一聚类结果集成至所述标准倒排索引;
基于标准倒排索引中的每个簇统计关键指标信息,并根据所述关键指标信息动态修正k1与b,获取修正饱和度参数与修正文档
您可能关注的文档
- CN120249957A 一种不锈钢钝化液及其制备方法 (天津金广达金属表面处理有限公司).docx
- CN120252599A 基于非完整曲面拟合的三坐标测量方法 (西安爱德华测量设备股份有限公司).docx
- CN120252688A 基于高斯分布的自适应动态slam方法 (重庆理工大学).docx
- CN120252774A 一种高定位精度车辆自适应导航方法及车载导航仪 (深圳市诺达方舟电子科技有限公司).docx
- CN120252856A 一种基于光纤传感技术的海缆故障在线诊断定位方法及系统 (浙江省邮电工程建设有限公司).docx
- CN120253372A 电子束敏感材料横截面的透射电镜超薄试样制备方法 (浙江大学).docx
- CN120253851A 基于机器视觉的线路板缺陷自动检测方法及系统 (深圳市华富快捷电路有限公司).docx
- CN120254074A 基于声发射的风电叶片缺陷检测方法 (南京安质信工程技术有限公司).docx
- CN120254139A 一种在线多通道快速气相色谱分析系统及方法 (上海圳塑自动化科技有限公司).docx
- CN120254465A 一种基于动态温度监测的电子线束智能耐高温测试方法 (常德富博智能科技有限公司).docx
- 2026届河南省郑州市高三上学期一模政治(解析版).docx
- 2026届河南省郑州市高三上学期第一次质量预测历史(原卷版).docx
- 2026届河北省名校联合体高三上学期一模政治(原卷版).docx
- 广东省茂名市信宜市2025-2026学年高二上学期11月期中考试政治(原卷版).docx
- 2026年高一上学期语文期末考试压轴卷含答案.docx
- 河北省部分示范性高中2025-2026学年高一12月考试语文试题含答案.docx
- 考研真题 首都师范大学历史学院776历史学基础综合历年考研真题汇编(含部分答案).pdf
- 考研真题 首都师范大学文学院445汉语国际教育基础[专业硕士]历年考研真题汇编(含部分答案).pdf
- 《护士条例》 辅导讲座.pptx
- 牙科医师质控的年度工作述职.pptx
原创力文档

文档评论(0)