Can frontier LLMs solve CAD tasks?

3 months ago

像GPT-5.3-Codex、Gemini 3.1 Pro和Claude Opus 4.6这样的前沿大语言模型展现出不同的能力，在某些任务上表现出色，而在其他任务上则表现不佳。
大语言模型主要基于文本数据进行训练，缺乏人类自然获得的视觉/空间/运动经验，因此在CAD等任务上表现较差。
该实验测试了大语言模型使用OpenSCAD设计可3D打印的自行车泵壁挂支架的能力，并通过MuJoCo模拟验证设计。
Claude Opus 4.6表现最佳，通过率为100%，但设计通常需要改进。GPT-5.2通过率较高，但设计存在缺陷。
Gemini 3.1 Pro和3 Flash展现出潜力但表现不稳定，有时能产生优秀设计，有时则失败或陷入循环。
开源模型如GLM-4.6V、Kimi K2.5和Qwen 3.5 397B表现较差，设计过于简单或无法正常使用。
该项目突显了MuJoCo中凸分解的挑战以及为大语言模型构建代理框架的复杂性。
未来改进可能包括制定更好的评分标准、增加测试对象数量以及集成现成的代理框架以提高性能。

Hasty Briefsbeta