Hasty Briefsbeta

双语

The Role of Feature Normalization in Ijepa

9 months ago

#ViT-Small
#dependency management
#machine learning

使用UV进行依赖管理。
需要下载数据集和NYU-Depth压缩文件，约需100GB存储空间。
默认训练配置采用约3亿参数的ViT-Small模型，耗时116小时，消耗约22GB显存。
支持恢复训练、评估IN1k验证集性能、可视化特征及绘制损失曲线。
代码中的token_ids为LongTensor类型，每个token含四个整数：注册ID、样本ID、高度ID、宽度ID。
模型处理不同分辨率图像块的批次，与标准ViT模型不同。
PyTorch的eval模式会影响模型前向传播，评估前需调用model.eval()。
LiDAR分数基于训练数据随机子集计算，恢复训练时可能变化。
仅支持单GPU训练，可选用PILLOW-SIMD加速数据加载。
隐藏特性包括TOME、可学习的绝对分解位置编码，以及多种预测器训练选项。
实验表明，向编码器和预测器添加注册令牌会显著降低性能。