Hasty Briefsbeta

双语

Opus 4.6 hallucinates twice as more today than when it released

4 days ago

#Code Analysis
#AI Hallucination
#Benchmark

AI模型在代码分析中通过30个任务、6个聚类和175个问题进行了幻觉测试，通过代码执行和真实数据进行验证。
Grok 4.20推理模型得分最高，准确率为91.8%，90.0%的准确度，误报率为10.0%，显示出最少的错误声明。
误报率差异显著，从顶尖模型的10.0%到排名较低的模型如GPT-4o Mini和MiniMax M2.5的近50%。
排名涵盖了27个AI模型，列出各自的得分、准确度及误报百分比以供比较。
截至2026年4月12日更新的数据提供了模型在代码分析中减少错误声明方面的表现快照。