CN119204234B 一种长文本处理方法以及相关装置 (中昊芯英(杭州)科技有限公司).docxVIP

  • 0
  • 0
  • 约3.81万字
  • 约 49页
  • 2026-01-21 发布于重庆
  • 举报

CN119204234B 一种长文本处理方法以及相关装置 (中昊芯英(杭州)科技有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119204234B(45)授权公告日2025.07.11

(21)申请号202411747634.3

(22)申请日2024.12.02

(65)同一申请的已公布的文献号申请公布号CN119204234A

GO6F40/20(2020.01)

(56)对比文件

CN117421398A,2024.01.19审查员王冠威

(43)申请公布日2024.12.27

(73)专利权人中昊芯英(杭州)科技有限公司地址310052浙江省杭州市滨江区长河街

道聚才路239号6幢19层

(72)发明人闯小明杨龚轶凡郑瀚寻傅婧

潘维维戴长乐

(74)专利代理机构北京箴思知识产权代理有限

公司11913专利代理师蒋志栋

(51)Int.CI.

GO6N5/04(2023.01)权利要求书3页说明书21页附图2页

(54)发明名称

一种长文本处理方法以及相关装置

(57)摘要

CN119204234B本申请属于人工智能领域,尤其涉及一种长文本处理方法以及相关装置,包括:对于当前会话中待处理的长文本数据,从长文本数据中提取各个文本片段对应的上下文信息;将各个上下文信息分别存储到外部记忆模块的不同存储区域中;外部记忆模块包括短期记忆区域和长期记忆区域;短期记忆区域用于存储当前会话中重要性达到预设条件的第一上下文信息;长期记忆区域用于存储多个会话中重复出现的第二上下文信息;多个会话包括当前会话和/或历史会话;将第一上下文信息以及第二上下文信息输入到大语言模型中,通过大语言模型实现对长文本数据的自然语言处理。该方法能够提高长文本处理的效

CN119204234B

对于当前会话中待处理的长文本数据,从所述长文本数据中提取各个文本片段对应的上下文信息

将各个上下文信息分别存储到外部记忆模块的不同存储区域中

将所述第一上下文信息以及所述第二上下文信息输入到大语言模型中,通过所述大语言模型实现对所述长文本数据的自然语言处理

S101

S102

S103

CN119204234B权利要求书1/3页

2

1.一种长文本处理方法,其特征在于,所述方法包括:

对于当前会话中待处理的长文本数据,从所述长文本数据中提取各个文本片段对应的上下文信息;

将各个上下文信息分别存储到外部记忆模块的不同存储区域中;所述外部记忆模块包括短期记忆区域和长期记忆区域;所述短期记忆区域用于存储当前会话中重要性达到预设条件的第一上下文信息;所述长期记忆区域用于存储多个会话中重复出现的第二上下文信息;多个会话包括当前会话和/或历史会话;

将各个上下文信息分别存储到外部记忆模块的不同存储区域中之后,动态调整不同存储区域中上下文信息的存储层级;其中,基于不同类别的会话,管理层级索引,不同索引对应不同类型会话的上下文信息;根据不同类别会话的活跃度、重要性、用户需求来动态调整存储层级的优先级;基于业务发展趋势的预测值,调整不同类别上下文信息的存储层级;

将所述第一上下文信息以及所述第二上下文信息输入到大语言模型中,通过所述大语言模型实现对所述长文本数据的自然语言处理;所述大语言模型中将所述第一上下文信息以及所述第二上下文信息进行多级记忆融合处理;在多级记忆融合处理中根据具体需求选择不同的融合方式;融合方式为混合拼接法、信息叠加法、信息合成法和信息筛选法中的至少一种。

2.根据权利要求1所述的方法,其特征在于,所述将各个上下文信息分别存储到外部记忆模块的不同存储区域中,包括:

通过自注意力机制,获取当前会话中各个上下文信息对应的重要性评估值;所述重要性评估值用于指示上下文信息与所述长文本数据之间的相关性;上下文信息与所述长文本数据之间的相关性越高,上下文信息对应的重要性评估值越高;

选取当前会话中重要性评估值满足预设条件的第一上下文信息,并将所述第一上下文信息存储到所述短期记忆区域;

将当前会话中各个上下文信息与所述长期记忆区域中存储的第二上下文信息进行匹配,并将当前会话与历史会话中重复出现的上下文信息作为新增的第二上下文信息,更新到所述长期记忆区域中。

3.根据权利要求2所述的方法,其特征在于,所述将各个上下文信息分别存储到外部记

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档