- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
雕塑家:通过主动上下文管理赋予大语言模型认知代
理能力
MoLi,L.H.Xu,QitaiTan,TingCao,YunxinLiu
TsinghuaUniversityIndependentResearcher
Abstract
大型语言模型(LLMs)在处理长上下文时会因前瞻性干扰而出现显著性能
本下降,其中上下文早期部分的无关信息破坏了推理和记忆召回。
译尽管大多数研究集中在通过外部内存系统增强LLMs的能力上,我们提出了
中一种互补的方法:赋予LLMs主动上下文管理(ACM)工具来积极塑造其内
部工作记忆。
1
v我们介绍了雕刻家,一个为LLMs配备三类工具的框架:(1)上下文片段化,
4(2)概要、隐藏和恢复,以及(3)智能搜索。
6
6我们的方法使LLMs能够主动管理它们的注意力和工作记忆,类似于人类如
4何有选择地关注相关信息并过滤掉干扰。
0
.在信息稀疏基准上的实验评估——PI-LLM(前瞻性干扰)和NeedleBench多
8
0针推理——证明了雕刻家显著提高了性能,即使没有特定训练,也利用了
5LLMs内在的工具调用泛化能力。
2
:通过启用主动上下文管理,雕刻家不仅减轻了前瞻性干扰,还为各种长上
v
i下文任务提供了更可靠的推理认知基础——强调明确的上下文控制策略,而
x不仅仅是更大的令牌窗口,是实现大规模稳健性的关键。
r
a
1介绍
大型语言模型(LLMs)在各种任务中表现出显著的能力,但在处理长上下文时面临根本性
的挑战。先前的研究表明,仅仅扩大上下文窗口会让模型容易受到位置偏差、过载和干扰的
影响,随着序列的增长[Liuetal.,2023,Hsiehetal.,2024a]。最近的实证研究表明,大型语
言模型会遭受前摄干扰,其中上下文中较早的信息会扰乱后续更相关信息的处理[Wangand
Sun,2025]。此外,像中间找到(FoundintheMiddle)这样的校准措施可以减少但不能消除
位置偏差;近期评估发现,当相关信息片段之间的距离增加时,性能仍显著下降,因为它们
之间不相关的干扰信息妨碍了有效的信息整合[Hsiehetal.,2024b][Tianetal.,2025]。这些现
象反映了人类认知心理学中的情况,即新的学习可能会受到不再与当前任务相关但先前获得
的信息的损害。
挑战在复杂的多步骤推理任务中变得尤为尖锐,在这些任务中,大语言模型必须保持对多
个关键信息点的关注,同时过滤掉背景噪音[Lietal.,2025a]。传统上解决长上下文挑战的
Correspondingauthor.
Preprint.Workinprogress.
InitialState:OverloadedContext
您可能关注的文档
- PROV-AGENT:用于跟踪智能代理交互的统一来源记录.pdf
- 安全的毫米波波束成形配合主动 ISAC 防御对 抗波束窃取攻击.pdf
- 用于放射学视觉问题回答中复杂推理的多智能体系统.pdf
- 代理隐私保护机器学习.pdf
- 从 B 细胞进化中学习:通过在线优化进行抗体设计的自适应多专家扩散.pdf
- 阐明特征规范化在 IJEPA 中的作用.pdf
- 从 Wi-Fi 信道状态信息中提取移动目标的范围-多普勒信息.pdf
- 认知循环通过原位优化:科学的自适应推理.pdf
- 合成医学数据生成:现状及在创伤机制分类中的应用.pdf
- 指数收敛率对于迭代马尔可夫拟合.pdf
- VirT-Lab: 一个用于灵活、可定制和大规模团队模拟的人工智能系统.pdf
- 轻量级变压器用于零样本和微调文本到 SQL 生成使用 Spider.pdf
- 可重复、可扩展的自回归模型文献合成管道.pdf
- 神经形态网络安全与半监督终身学习.pdf
- 多语种环境下面部-语音关联(FAME)2026 挑战评估 计划.pdf
- 视觉偏见与深度学习在皮肤影像分析中的可解释性.pdf
- CONVERGE:一种用于 xApps 的多智能体视觉-无线电架构.pdf
- LA-CaRe-CNN:级联细化 卷积神经网络用于左心房疤痕分割.pdf
- 基于数据扩增的领域泛化和来自多个源领域的联合训练用于全心脏分割.pdf
- MSC:一个具有基于区域分割和片段级字幕的海洋野生动物视频数据集.pdf
最近下载
- CTD格式申报资料(原料药)新.pdf VIP
- 六年级下册数学作业第五单元数学广角第1课时鸽巢问题人教版.pptx VIP
- 华荣科技 最新版本的QJZ6磁力说明书 (1).doc VIP
- 2023年江苏省公考《申论》真题(B类)及参考答案.docx VIP
- 领导干部个人有关事项报告表(2017版).doc VIP
- 六年级 数学 下册 第五单元 数学广角——鸽巢问题《第1课时 鸽巢问题(1)》作业课件.pptx VIP
- 项目集成管理中级笔记.pdf VIP
- 心血管疾病诊断及临床合理用药答案-2024年山西省执业药师继续教育.docx VIP
- EBZ-318综掘机图册说明书.pdf VIP
- 直肠癌教学护理查房张梅.ppt VIP
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
原创力文档


文档评论(0)