N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?
4 days ago
- #vulnerability discovery
- #cybersecurity
- #benchmark
- N-Day-Bench 旨在衡量大语言模型发现其知识截止日期之后披露的真实世界漏洞的能力。
- 该基准具备自适应性,每月更新测试用例和模型版本。
- 所有追踪记录均公开可访问,确保了评估过程的透明度。
- 领先的模型包括 GPT-5.4、GLM-5.1 和 Claude Opus-4.6,其中 GPT-5.4 以 83.93 的平均分位列最高。