Hasty Briefsbeta

双语

Reproducing the deep double descent paper

a year ago

#resnet18
#machine-learning
#double-descent

作者在Recurse中心花时间学习没有先验背景的机器学习(ML)。
专注于复现《深度双下降》论文结果以检验理解程度。
双下降现象指模型性能随模型规模或训练时长增加先提升、后恶化、再提升的过程。
小模型(欠参数化)会随参数增加而改进，但无法完全学习问题特征。
在插值阈值点时，模型会记住训练数据但在测试数据上表现糟糕。
大模型(过参数化)能良好学习底层特征而不会过拟合。
通过引入标签噪声来研究其对双下降现象的影响。
作者尝试使用ResNet18在CIFAR-10上复现结果，调整了图像尺寸和输出类别。
训练过程中的挑战包括标签噪声应用错误和针对CIFAR-10的模型调整。
结果显示带标签噪声的双下降曲线，与论文发现一致。
更大模型初期表现更差，但通过更多训练后恢复，在高标签噪声时尤其明显。