Agentic Pelican on a Bicycle

6 months ago

代理循环（生成、评估、改进）被用于迭代优化一只骑自行车鹈鹕的SVG图像
Simon Willison的基准测试——'生成一只骑自行车鹈鹕的SVG图像'——用于测试模型的创造力和改进能力
模型被赋予Chrome DevTools等工具进行SVG转JPG转换，并利用自身视觉能力进行自我评估和迭代
测试了六种多模态模型：Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium、GPT-5-Codex Medium和Gemini 2.5 Pro
结果各异：Claude Opus 4.1添加了自行车链条等现实细节，而GPT-5-Codex使图像更复杂但未必更好
Gemini 2.5 Pro在迭代过程中展现出最显著的构图变化
实验表明不同模型在自我批判和改进能力上存在差异，有些擅长机械推理，有些则在审美判断上表现欠佳

Hasty Briefsbeta