Hasty Briefsbeta

双语

Reproducing the deep double descent paper

a year ago
  • #resnet18
  • #machine-learning
  • #double-descent
  • 作者在Recurse中心花时间学习没有先验背景的机器学习(ML)。
  • 专注于复现《深度双下降》论文结果以检验理解程度。
  • 双下降现象指模型性能随模型规模或训练时长增加先提升、后恶化、再提升的过程。
  • 小模型(欠参数化)会随参数增加而改进,但无法完全学习问题特征。
  • 在插值阈值点时,模型会记住训练数据但在测试数据上表现糟糕。
  • 大模型(过参数化)能良好学习底层特征而不会过拟合。
  • 通过引入标签噪声来研究其对双下降现象的影响。
  • 作者尝试使用ResNet18在CIFAR-10上复现结果,调整了图像尺寸和输出类别。
  • 训练过程中的挑战包括标签噪声应用错误和针对CIFAR-10的模型调整。
  • 结果显示带标签噪声的双下降曲线,与论文发现一致。
  • 更大模型初期表现更差,但通过更多训练后恢复,在高标签噪声时尤其明显。