Hasty Briefsbeta

双语

PRX Part 3 – Training a Text-to-Image Model in 24h

2 months ago

#text-to-image
#diffusion-models
#machine-learning

在32块H200 GPU上以1500美元预算进行24小时极限训练，融合了扩散模型的架构技巧与训练策略
采用x-prediction像素空间训练方案（无需VAE），设置32的补丁尺寸与256维瓶颈层
引入感知损失（LPIPS+DINO）加速收敛并提升画质，在所有噪声级别对完整图像进行池化处理
通过TREAD令牌路由机制，从第2到倒数第2个transformer块跳过50%令牌计算以降低开销
使用REPA表示对齐技术，以DINOv3作为教师模型，在第8个transformer块施加权重0.5的对齐损失
二维参数采用Muon优化器，其余参数使用Adam，并为不同参数组定制学习率与动量配置
训练数据采用合成数据集（Flux生成/FLUX-Reason-6M/midjourney-v6-llava），512px训练10万步后接1024px训练2万步
效果呈现优秀的提示跟随与美学一致性，仅存在因训练不足导致的纹理瑕疵和结构错误等轻微缺陷
已在GitHub开源训练代码与实验框架供社区使用适配