Reproducing the deep double descent paper
a year ago
- #resnet18
- #machine-learning
- #double-descent
- 作者在Recurse中心花时间学习没有先验背景的机器学习(ML)。
- 专注于复现《深度双下降》论文结果以检验理解程度。
- 双下降现象指模型性能随模型规模或训练时长增加先提升、后恶化、再提升的过程。
- 小模型(欠参数化)会随参数增加而改进,但无法完全学习问题特征。
- 在插值阈值点时,模型会记住训练数据但在测试数据上表现糟糕。
- 大模型(过参数化)能良好学习底层特征而不会过拟合。
- 通过引入标签噪声来研究其对双下降现象的影响。
- 作者尝试使用ResNet18在CIFAR-10上复现结果,调整了图像尺寸和输出类别。
- 训练过程中的挑战包括标签噪声应用错误和针对CIFAR-10的模型调整。
- 结果显示带标签噪声的双下降曲线,与论文发现一致。
- 更大模型初期表现更差,但通过更多训练后恢复,在高标签噪声时尤其明显。