Hasty Briefsbeta

双语

"Car Wash" test with 53 models

2 days ago
  • #Model Reliability
  • #AI Benchmark
  • #Reasoning Test
  • '洗车测试'是一个简单的推理基准,大多数AI模型都无法正确回答。
  • 问题是:'我想洗车。洗车店在50米外。我应该步行还是开车?'正确答案是'开车',因为车需要到达洗车店。
  • 在单次测试中,53个模型里只有11个回答正确,42个模型错误选择了'步行'。
  • 通过测试的模型包括Claude Opus 4.6、Gemini 3系列、GPT-5、Grok-4等少数几个。
  • 在10轮一致性测试中,仅5个模型(Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、Grok-4)每次都答对。
  • GPT-5在10次中有3次失败,显示出推理的不稳定性。
  • 33个模型在10轮测试中从未答对,包括所有Llama和Mistral模型。
  • 人类基线测试(10,000名参与者)显示71.5%选择'开车',表现优于大多数AI模型。
  • 该测试揭示了AI在生产环境中的可靠性问题:模型常依赖启发式思维('短距离=步行')而非上下文推理。
  • 通过提供结构化示例和领域特定推理的上下文工程,可帮助提升模型表现。