- 0
- 0
- 约2.05万字
- 约 33页
- 2026-01-24 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119293195A(43)申请公布日2025.01.10
(21)申请号202411817803.6
(22)申请日2024.12.11
(71)申请人浩鲸云计算科技股份有限公司
地址210000江苏省南京市雨花台区安德
门大街50号B座6楼
GO6FGO6F
40/211(2020.01)
16/353(2025.01)
(72)发明人鲍钟峻王玉木陈前进季伟
昌龙
(74)专利代理机构南京中盟科创知识产权代理
事务所(特殊普通合伙)
32279
专利代理师张靖尧
(51)Int.CI.
GO6F16/3329(2025.01)
GO6F16/334(2025.01)
GO6F16/338(2019.01)
权利要求书3页说明书12页附图3页
(54)发明名称
一种基于树近邻上下文的大语言模型RAG优
化方法
(57)摘要
CN119293195A本发明一种基于树近邻上下文的大语言模型RAG优化方法,包括,读取文档的目录结构和内容,生成对应的目录树并转换为包含标题和级别的Markdown格式,若无标题则根据文档模板自动提取;按照优先级将文档切分为知识块;在召回知识块后,使用树邻近上下文方法扩充上下文,形成新的知识块列表;将扩充后的知识块按照文档标识分组和排序,基于不同的字段和置信度拼接参考资料,生成来自原始文档的字符串集合;使用构造的参考资料和新的知识块列表,拼接提示词并发送给大模型进行处理。本发明该方案通过优化上下文信息、强调重点内容、适配多种文
CN119293195A
用性。
步骤1
步骤1
读取文档的目录结构和内容,生成对应的目录树并转换为包含标题和级别的Markdown格式,若无标题则根据文档模板自动提取
步骤2
按照优先级将文档切分为知识块,每个知识块包含字段,且包含的token数在预定范围内
步骤3
在召回知识块后,使用树邻近上下文方法扩充上下文,通过添加语义相近块、
兄弟节点和父节点,形成新的知识块列表,确保总token数在模型支持的上下文
长度内
步骤4
将扩充后的知识块按照文档标识分组和排序,基于不同的字段和置信度拼接参考资料,生成来自原始文档的字符串集合
步骤5
使用构造的参考资料和新的知识块列表,拼接提示词并发送给大模型进行处理
CN119293195A权利要求书1/3页
2
1.一种基于树近邻上下文的大语言模型RAG优化方法,其特征在于,包括以下步骤:
步骤1:读取文档的目录结构和内容,生成对应的目录树并转换为包含标题和级别的Markdown格式,若无标题则根据文档模板自动提取;
步骤2:按照优先级将文档切分为知识块,每个知识块包含字段,且包含的token数在预定范围内;
步骤3:在召回知识块后,使用树邻近上下文方法扩充上下文,通过添加语义相近块、兄弟节点和父节点,形成新的知识块列表,确保总token数在模型支持的上下文长度内;
步骤4:将扩充后的知识块按照文档标识分组和排序,基于不同的字段和置信度拼接参考资料,生成来自原始文档的字符串集合;
步骤5:使用构造的参考资料和新的知识块列表,拼接提示词并发送给大模型进行处
理。
2.根据权利要求1所述的一种基于树近邻上下文的大语言模型RAG优化方法,其特征在于,步骤1具体如下:
步骤1.1:打开并解析源文档,提取目录信息以及正文内容,识别文档中的标题和段落,将它们分离以便后续处理;
步骤1.2:将提取的标题、标题级别和正文内容映射为Markdown格式,使用“#”表示一级标题,“##”表示二级标题,以此类推,确保Markdown格式中的标题和正文与源文档的结构和内容一致;
步骤1.3:如果文档中没有明确的标题,基于文档的模板或内容自动生成标题,使用自然语言处理技术从段落中提取主题句作为标题,设置合适的标题级别,构建文档的层次结构;
步骤1.4:基于Markdown格式的标题级别,构建目录树结构,每个标题对应一个节点,标题级别反映节点的层次关系,确保目录树准确反映文档的结构,便于后续的切分和检索。
3.根据权利要求1所述的一种基于树近邻上下文的大语言模型RAG优化方法,其特征在于,步骤2具体如下:
步骤2.1:切分的优先级顺序为:文档目录语义块大小,优先按照目录结构切分,以保
您可能关注的文档
- CN119296376A 一种基于多模态物联感知的公路风险模拟避让系统及方法 (四川云控交通科技有限责任公司).docx
- CN119296322A 基于全息图的路网安全预警方法、装置及存储介质 (深圳市拓必达科技有限公司).docx
- CN119296239A 基于视频远程监控的防盗监测预警方法 (广州市伟粤通讯设备有限公司).docx
- CN119295886A 基于多尺度特征融合的X-ray图像违禁品检测方法 (齐鲁工业大学(山东省科学院)).docx
- CN119295883A 一种基于多模态感知融合的自主机器人决策系统及其方法 (龙岩丽泰信息技术有限公司).docx
- CN119295827A 通过深度学习增强缺陷检测效率的无损探伤方法 (苏州天顺复合材料科技有限公司).docx
- CN119295660A 一种深度学习和计算机视觉的桥梁结构裂缝位置识别方法 (广州航海学院).docx
- CN119295638A 基于高斯泼溅的图像渲染方法、装置、设备、存储介质及程序产品 (北京大学深圳研究生院).docx
- CN119295621A 基于高斯泼溅的高保真大规模场景渲染方法、系统、设备及介质 (上海赜深数字科技有限公司).docx
- CN119295570A 用于编码-解码点云的几何结构的方法和设备 (交互数字Vc控股公司).docx
- CN119293194A 病历记录质量管理系统及方法 (吉林大学).docx
- CN119293179A 一种基于医学图谱的检索增强生成方法 (周佺喜).docx
- CN119293164A 知识库问答系统的构建方法、装置、设备及存储介质 (英智未来(深圳)人工智能科技有限公司).docx
- CN119293139A 用于增强大语言模型多模态长上下文对话能力的记忆检索方法 (中科南京人工智能创新研究院).docx
- CN119293078A 一种自动化服务编排的方法、系统、设备及存储介质 (中国—东盟信息港股份有限公司).docx
- CN119292671A 跨芯片平台的指令转换方法 (杭州宇泛智能科技股份有限公司).docx
- CN119292541A 一种用于固态硬盘的负载协同调度方法及系统 (深圳市威科伟业电子科技有限公司).docx
- CN119292524A 基于大模型的数据存储方法 (上海迅绎网络科技有限公司).docx
- CN119292376A 多波长led检测光源的温控方法、装置及设备 (深圳市金鼎胜光电股份有限公司).docx
- CN119292314A 一种无人机灾害应急巡检路径智能规划系统与方法 (北京中翼腾飞科技有限公司).docx
最近下载
- 膀胱肿瘤行膀胱全切回肠代膀胱围手术护理.pptx VIP
- ABB机器人IRB120产品规格说明书.pdf
- 导热油培训教程文件.ppt VIP
- 武装冲突法.doc VIP
- GB50009-2012 建筑结构荷载规范.docx
- 导热油炉培训.ppt VIP
- 雷克萨斯-Lexus RX-产品使用说明书-RX450h-GYL25L-AWXGBC2-RX450hOM_OM48E57C_1510.pdf VIP
- 高血压达标中心数据库管理制度.pdf VIP
- Selected Stories of Lu Hsun By Lu Hsun 英文版鲁迅全集.doc VIP
- 2025年度民主生活会“带头强化政治忠诚提高政治能力方面”五个带头常见存在问题清单.docx VIP
原创力文档

文档评论(0)