Benchmarking GPT-5 on 400 Real-World Code Reviews

9 months ago

GPT-5 is now available on Qodo’s platform for all users.
Qodo’s PR Benchmark evaluates LLMs on real-world pull request tasks.
The PR Benchmark uses 400 real-world PRs from 100+ public repositories.
GPT-5 leads in code review performance with strong analytical capabilities.
GPT-5 excels in bug coverage, precise patches, and rule compliance.
Weaknesses include false positives and inconsistent labeling.
Minimal GPT-5 variant balances speed and quality for developer workflows.
Benchmark highlights rapid advancements in AI models like Gemini 2.5, Claude 4, and Grok 4.
Future expansions include more languages, multi-file PRs, and long-context reasoning.

Hasty Briefsbeta