Hasty Briefsbeta

双语

AbsenceBench: Language models can't tell what's missing

a year ago

#Benchmark
#LLMs
#Transformer

大语言模型（LLMs）在回忆意外信息方面表现优异，但难以识别被省略的信息。
AbsenceBench被引入用于评估LLMs在数值序列、诗歌和GitHub拉取请求中检测缺失信息的能力。
即使是Claude-3.7-Sonnet等最先进模型，在平均上下文长度为5K标记的AbsenceBench测试中也仅达到69.6%的F1分数。
Transformer注意力机制存在根本性局限：由于缺失信息不对应特定键值，模型难以关注文档中的'空白'部分。
该研究揭示了模型表现卓越的任务（如NIAH）与意外失败的任务（如AbsenceBench）之间的紧密关联性。