Hasty Briefsbeta

双语

AbsenceBench: Language models can't tell what's missing

a year ago
  • #Benchmark
  • #LLMs
  • #Transformer
  • 大语言模型(LLMs)在回忆意外信息方面表现优异,但难以识别被省略的信息。
  • AbsenceBench被引入用于评估LLMs在数值序列、诗歌和GitHub拉取请求中检测缺失信息的能力。
  • 即使是Claude-3.7-Sonnet等最先进模型,在平均上下文长度为5K标记的AbsenceBench测试中也仅达到69.6%的F1分数。
  • Transformer注意力机制存在根本性局限:由于缺失信息不对应特定键值,模型难以关注文档中的'空白'部分。
  • 该研究揭示了模型表现卓越的任务(如NIAH)与意外失败的任务(如AbsenceBench)之间的紧密关联性。