Can frontier LLMs solve CAD tasks?
a day ago
- #LLMs
- #CAD
- #3D-printing
- 像GPT-5.3-Codex、Gemini 3.1 Pro和Claude Opus 4.6这样的前沿大语言模型展现出不同的能力,在某些任务上表现出色,而在其他任务上则表现不佳。
- 大语言模型主要基于文本数据进行训练,缺乏人类自然获得的视觉/空间/运动经验,因此在CAD等任务上表现较差。
- 该实验测试了大语言模型使用OpenSCAD设计可3D打印的自行车泵壁挂支架的能力,并通过MuJoCo模拟验证设计。
- Claude Opus 4.6表现最佳,通过率为100%,但设计通常需要改进。GPT-5.2通过率较高,但设计存在缺陷。
- Gemini 3.1 Pro和3 Flash展现出潜力但表现不稳定,有时能产生优秀设计,有时则失败或陷入循环。
- 开源模型如GLM-4.6V、Kimi K2.5和Qwen 3.5 397B表现较差,设计过于简单或无法正常使用。
- 该项目突显了MuJoCo中凸分解的挑战以及为大语言模型构建代理框架的复杂性。
- 未来改进可能包括制定更好的评分标准、增加测试对象数量以及集成现成的代理框架以提高性能。