"Car Wash" test with 53 models

2 days ago

'洗车测试'是一个简单的推理基准，大多数AI模型都无法正确回答。
问题是：'我想洗车。洗车店在50米外。我应该步行还是开车？'正确答案是'开车'，因为车需要到达洗车店。
在单次测试中，53个模型里只有11个回答正确，42个模型错误选择了'步行'。
通过测试的模型包括Claude Opus 4.6、Gemini 3系列、GPT-5、Grok-4等少数几个。
在10轮一致性测试中，仅5个模型（Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、Grok-4）每次都答对。
GPT-5在10次中有3次失败，显示出推理的不稳定性。
33个模型在10轮测试中从未答对，包括所有Llama和Mistral模型。
人类基线测试（10,000名参与者）显示71.5%选择'开车'，表现优于大多数AI模型。
该测试揭示了AI在生产环境中的可靠性问题：模型常依赖启发式思维（'短距离=步行'）而非上下文推理。
通过提供结构化示例和领域特定推理的上下文工程，可帮助提升模型表现。

Hasty Briefsbeta