Hasty Briefsbeta

双语

Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster

2 months ago
  • #parallel-computing
  • #autonomous-research
  • #machine-learning
  • Claude Code被用于自主改进神经网络训练脚本(autoresearch),通过在16块GPU上运行约910次实验,耗时8小时。
  • 并行执行使智能体能够每轮测试10-13个实验的因子网格,发现顺序搜索会遗漏的参数间交互效应。
  • 智能体发现缩放模型宽度(宽高比)影响最显著,验证集每字节比特数(val_bpb)从1.003降至0.974(提升2.87%)。
  • 智能体自主开发了利用异构硬件(H100和H200)的策略:在较便宜的H100上筛选方案,在更快的H200上验证最优方案。
  • 实验使用SkyPilot进行管理,使智能体无需人工干预即可配置和管理GPU集群。
  • 搜索过程经历五个阶段:超参数扫描、架构发现、微调、优化器调优和收益递减阶段。
  • 并行执行将智能体研究策略从贪婪爬山算法转变为因子网格法,实现了参数空间更高效的探索。
  • 会话总成本约300美元,包括9美元的Claude Code API费用和约260美元的GPU算力费用。
  • 该实验设置可供复现,SkyPilot示例库中提供了配置说明和YAML文件。