2601.07372v1通过可扩展查找实现的条件记忆:大型语言模型的新型稀疏轴Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models.pdfVIP
- 0
- 0
- 约13.1万字
- 约 33页
- 2026-01-21 发布于北京
- 举报
ConditionalMemoryviaScalableLookup:
ANewAxisofSparsityforLargeLanguageModels
1,22222
XinCheng,WangdingZeng,DamaiDai,QinyuChen,BingxuanWang,
222222
ZhendaXie,KezhaoHuang,XingkaiYu,ZhewenHao,YukunLi,HanZhang,
112
HuishuaiZhang,DongyanZhao,WenfengLiang
1PekingUniversity2DeepSeek-AI
{zhanghuishuai,zhaody}@
6{chengxin,zengwangding,damai.dai}@
2
0
2
Abstract
n
a
J
2WhileMixture-of-Experts(MoE)scalescapacityviaconditionalcomputation,Transformerslack
1anativeprimitiveforknowledgelookup,forcingthemtoinefficientlysimulateretrievalthrough
]computation.Toaddressthis,weintroduceconditionalmemoryasacomplementarysparsity
Laxis,instantiatedviaEngram,amodulethatmodernizesclassic肀-gramembeddingforO(1)
Clookup.ByformulatingtheSparsityAllocationproblem,weuncoveraU-shapedscalinglaw
.
sthatoptimizesthetrade-offbetweenneuralcomputation(MoE)andstaticmemory(Engram).
c
[Guidedbythislaw,wescaleEngramto27Bparameters,achievingsuperiorperformance
1overastrictlyiso-parameterandiso-FLOPsMoEbaseline.Mostnotably,whilethememory
vmoduleisexpectedtoaidknowledgeretrieval(e.g.,MMLU+3.4;CMMLU+4.0),weobserve
2evenlargergainsingeneralreasoning(e
您可能关注的文档
- AI语音合成(TTS)市场调研报告 2025 深度解析全球TTS市场现状与竞争格局.pdf
- 大模型技术白皮书.pdf
- 计算机行业:他山之石系列报告(二):大模型应用开发框架LangChain梳理.pdf
- 中国汽车产业全球化发展报告2025_罗兰贝格&华汽研究院.pdf
- 自然语言处理:大模型理论与实践(预览版本)0916.pdf
- 部编版人教版初一七年级语文下册《小壁虎借尾巴》名师课件.pptx
- 部编版人教版初一七年级语文下册《陋室铭》赛教课件.ppt
- 部编版五年级语文上册《珍珠鸟》教学课件.ppt
- 部编版人教版初一七年级语文下册《文言文专题复习》名师课件.pptx
- 部编版五年级语文上册《忆读书》.ppt
- 部编版人教版一年级语文下册《识字:古对今》赛教课件.pptx
- 新编人教部编版二年级下册语文《我是一只小虫子》名师教学课件.pptx
- 最新人教部编版九年级语文上册《精神的三间小屋》精品课件.ppt
- 全优指导高中数学人教A版选修2-1课件:3.2.1利用向量证明空间中的平行关系.ppt
- 最新人教部编版小学语文一年级下册《动物儿歌》教学设计.docx
- 最新人教部编版四年级语文上册《风筝》精品课件.ppt
- 北师大版数学六年级下册《数的运算》课件.ppt
- 部编版人教版初一七年级语文下册《老王》名师课件.ppt
- 部编版人教版初一七年级语文下册《将军百战死-壮士十年归——“互文”修辞手法》名师课件.pptx
- 部编版三年级语文下册《童年的水墨画》教学课件.pptx
原创力文档

文档评论(0)