Context Rot: How increasing input tokens impacts LLM performance
10 months ago
- #long-context
- #LLMs
- #benchmarking
- 近期大语言模型呈现支持更长上下文窗口的趋势,输入标记可达百万量级
- 在诸如'大海捞针'(NIAH)等基准测试中的表现常被假定为均匀分布,但NIAH本质上只是简单的检索任务
- 扩展版NIAH任务探索语义匹配和干扰文本变化,揭示模型在长输入时性能下降的现象
- 模型在非字面匹配、干扰项处理和文本结构理解方面存在困难,这直接影响实际应用效果
- LongMemEval基准测试针对对话式QA场景,证明模型从长上下文中检索信息时性能显著下降
- 重复词汇任务显示自回归模型在输出长度随输入扩展时难以保持准确性
- 性能衰减在不同模型间呈现非均匀分布,部分模型会拒绝执行任务或产生随机输出
- 上下文工程对保障可靠性至关重要,信息呈现方式会显著影响模型行为模式