Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster
2 months ago
- #parallel-computing
- #autonomous-research
- #machine-learning
- Claude Code被用于自主改进神经网络训练脚本(autoresearch),通过在16块GPU上运行约910次实验,耗时8小时。
- 并行执行使智能体能够每轮测试10-13个实验的因子网格,发现顺序搜索会遗漏的参数间交互效应。
- 智能体发现缩放模型宽度(宽高比)影响最显著,验证集每字节比特数(val_bpb)从1.003降至0.974(提升2.87%)。
- 智能体自主开发了利用异构硬件(H100和H200)的策略:在较便宜的H100上筛选方案,在更快的H200上验证最优方案。
- 实验使用SkyPilot进行管理,使智能体无需人工干预即可配置和管理GPU集群。
- 搜索过程经历五个阶段:超参数扫描、架构发现、微调、优化器调优和收益递减阶段。
- 并行执行将智能体研究策略从贪婪爬山算法转变为因子网格法,实现了参数空间更高效的探索。
- 会话总成本约300美元,包括9美元的Claude Code API费用和约260美元的GPU算力费用。
- 该实验设置可供复现,SkyPilot示例库中提供了配置说明和YAML文件。