Hasty Briefsbeta

双语

LongCodeBench: Evaluating Coding LLMs at 1M Context Windows

a year ago
  • #Benchmark
  • #Code-Comprehension
  • #LLM
  • LongCodeBench(LCB)被提出作为评估大语言模型在长上下文场景下编码能力的基准测试
  • 该基准通过真实GitHub问题测试模型的理解与修复能力,包含问答任务(LongCodeQA)和缺陷修复任务(LongSWE-Bench)
  • 观察到模型在长上下文场景中的性能显著下降,例如Claude 3.5 Sonnet从29%降至3%,Qwen2.5从70.2%降至40%
  • 基准测试按复杂度分层设计,可评估从Qwen2.5 14B Instruct到谷歌Gemini等不同规模模型的表现
  • 尽管上下文长度处理能力有所进步,长上下文处理仍是所有模型面临的共同挑战