Hasty Briefsbeta

双语

Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster

2 months ago

#parallel-computing
#autonomous-research
#machine-learning

Claude Code被用于自主改进神经网络训练脚本（autoresearch），通过在16块GPU上运行约910次实验，耗时8小时。
并行执行使智能体能够每轮测试10-13个实验的因子网格，发现顺序搜索会遗漏的参数间交互效应。
智能体发现缩放模型宽度（宽高比）影响最显著，验证集每字节比特数（val_bpb）从1.003降至0.974（提升2.87%）。
智能体自主开发了利用异构硬件（H100和H200）的策略：在较便宜的H100上筛选方案，在更快的H200上验证最优方案。
实验使用SkyPilot进行管理，使智能体无需人工干预即可配置和管理GPU集群。
搜索过程经历五个阶段：超参数扫描、架构发现、微调、优化器调优和收益递减阶段。
并行执行将智能体研究策略从贪婪爬山算法转变为因子网格法，实现了参数空间更高效的探索。
会话总成本约300美元，包括9美元的Claude Code API费用和约260美元的GPU算力费用。
该实验设置可供复现，SkyPilot示例库中提供了配置说明和YAML文件。