一则关于叠加态下的玩具模型 (toy models of superposition) 的简单笔记。
这是一则 Anthropic 组织提出的可信人工智能相关的文章。该文章没有发表到某会议或期刊上,但在可解释 AI 上引发了不小的影响。
# 背景
神经网络可解释性差的一个重要原因是不知道神经元与特征是否一一对应。在某些特定的简单任务中,特征与神经元常常具有对应关系,而在 LLM 中,神经元与特征的对应关系变得不再清晰。
在这篇文章中,作者以基于 ReLU 的小规模神经网络作为研究对象,对于神经元和特征的对应关系作了研究。