Agentic Pelican on a Bicycle
6 months ago
- #Creative Benchmark
- #AI Agents
- #Multimodal Models
- 代理循环(生成、评估、改进)被用于迭代优化一只骑自行车鹈鹕的SVG图像
- Simon Willison的基准测试——'生成一只骑自行车鹈鹕的SVG图像'——用于测试模型的创造力和改进能力
- 模型被赋予Chrome DevTools等工具进行SVG转JPG转换,并利用自身视觉能力进行自我评估和迭代
- 测试了六种多模态模型:Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium、GPT-5-Codex Medium和Gemini 2.5 Pro
- 结果各异:Claude Opus 4.1添加了自行车链条等现实细节,而GPT-5-Codex使图像更复杂但未必更好
- Gemini 2.5 Pro在迭代过程中展现出最显著的构图变化
- 实验表明不同模型在自我批判和改进能力上存在差异,有些擅长机械推理,有些则在审美判断上表现欠佳