Hasty Briefsbeta

双语

Why do LLMs freak out over the seahorse emoji?

7 months ago
  • #emoji
  • #LLMs
  • #AI behavior
  • 尽管海马表情符号并非Unicode标准的一部分,但大语言模型始终坚信其存在。
  • 人类集体记忆和网络讨论强化了这一错误认知,许多人回忆中存在的海马表情符号实际从未被创建。
  • 通过logit透镜技术发现,大语言模型在输出错误表情前,内部会先构建'海马+表情符号'的概念框架。
  • 当生成表情符号时,大语言模型试图将其lm_head中的残差向量与已知标记匹配,但对海马等不存在的表情符号会匹配失败。
  • 不同模型对错误输出的处理方式各异:有的陷入表情符号刷屏循环,有的会自我纠正,还有的直接忽略错误。
  • 这种现象表明,缺乏强化学习等外部反馈机制时,大语言模型难以将自身输出与现实标准进行验证。