Generating Cats with learned lookup tables
6 months ago
- #image generation
- #neural networks
- #machine learning
- 关于使用查找表(LUT)生成猫图像的后续研究,该词典包含512/64种8x8模式。
- 尽管最初对模型表达能力存疑,但效果出人意料地好。
- 模型采用16个自注意力块的补丁变换器,每幅图像处理64个token(8x8的RGB图像块)。
- 每个8x8图像块是512种学习模式的softmax加权和,支持插值生成。
- 训练时通过噪声插值预测原始图像;推理时从高斯噪声开始生成。
- 推理过程中LUT条目是静态的8x8 RGB图像块。
- 尝试减少词典条目(如64个)并通过Gram矩阵惩罚促进正交性。
- 提出动态LUT生成方案,通过输出RGB外积向量来提升模型容量。
- 测试分层LUT结构,通过生成mip链系数同时捕捉粗粒度与细粒度特征。
- 多种LUT方法均显示出有前景的猫图像生成效果。