Hasty Briefsbeta

双语

On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

5 months ago

#Large Language Models
#Hallucinations
#Artificial Intelligence

本文研究了大型语言模型(LLMs)中的幻觉关联神经元(H-Neurons)
H-Neurons是稀疏的神经元子集(不到神经元总数的0.1%)，可预测幻觉现象的发生
这些神经元与LLMs中的过度顺从行为存在因果关系
H-Neurons在预训练阶段形成，并持续保持对幻觉检测的预测能力
该研究将宏观行为模式与LLMs的微观神经机制联系起来