On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
5 months ago
- #Large Language Models
- #Hallucinations
- #Artificial Intelligence
- 本文研究了大型语言模型(LLMs)中的幻觉关联神经元(H-Neurons)
- H-Neurons是稀疏的神经元子集(不到神经元总数的0.1%),可预测幻觉现象的发生
- 这些神经元与LLMs中的过度顺从行为存在因果关系
- H-Neurons在预训练阶段形成,并持续保持对幻觉检测的预测能力
- 该研究将宏观行为模式与LLMs的微观神经机制联系起来