自然语言自编码器生成 LLM 激活的无监督解释 Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations.docxVIP

  • 1
  • 0
  • 约21.34万字
  • 约 135页
  • 2026-05-18 发布于山西
  • 举报

自然语言自编码器生成 LLM 激活的无监督解释 Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations.docx

NaturalLanguageAutoencodersProduceUnsupervisedExplanationsofLLMActivations

https://transformer-circuits.pub/2026/nla/index.html#introduction

TransformerCircuitsThread

NaturalLanguageAutoencodersProduceUnsupervisedExplanationsofLLMActivations

Authors

KitFraser-Taliente*,Subha

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档