Hasty Briefsbeta

双语

LongCodeBench: Evaluating Coding LLMs at 1M Context Windows

a year ago

#Benchmark
#Code-Comprehension
#LLM

LongCodeBench（LCB）被提出作为评估大语言模型在长上下文场景下编码能力的基准测试
该基准通过真实GitHub问题测试模型的理解与修复能力，包含问答任务（LongCodeQA）和缺陷修复任务（LongSWE-Bench）
观察到模型在长上下文场景中的性能显著下降，例如Claude 3.5 Sonnet从29%降至3%，Qwen2.5从70.2%降至40%
基准测试按复杂度分层设计，可评估从Qwen2.5 14B Instruct到谷歌Gemini等不同规模模型的表现
尽管上下文长度处理能力有所进步，长上下文处理仍是所有模型面临的共同挑战