Hasty Briefsbeta

双语

Agentic Pelican on a Bicycle

6 months ago
  • #Creative Benchmark
  • #AI Agents
  • #Multimodal Models
  • 代理循环(生成、评估、改进)被用于迭代优化一只骑自行车鹈鹕的SVG图像
  • Simon Willison的基准测试——'生成一只骑自行车鹈鹕的SVG图像'——用于测试模型的创造力和改进能力
  • 模型被赋予Chrome DevTools等工具进行SVG转JPG转换,并利用自身视觉能力进行自我评估和迭代
  • 测试了六种多模态模型:Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium、GPT-5-Codex Medium和Gemini 2.5 Pro
  • 结果各异:Claude Opus 4.1添加了自行车链条等现实细节,而GPT-5-Codex使图像更复杂但未必更好
  • Gemini 2.5 Pro在迭代过程中展现出最显著的构图变化
  • 实验表明不同模型在自我批判和改进能力上存在差异,有些擅长机械推理,有些则在审美判断上表现欠佳