The Role of Feature Normalization in Ijepa
9 months ago
- #ViT-Small
- #dependency management
- #machine learning
- 使用UV进行依赖管理。
- 需要下载数据集和NYU-Depth压缩文件,约需100GB存储空间。
- 默认训练配置采用约3亿参数的ViT-Small模型,耗时116小时,消耗约22GB显存。
- 支持恢复训练、评估IN1k验证集性能、可视化特征及绘制损失曲线。
- 代码中的token_ids为LongTensor类型,每个token含四个整数:注册ID、样本ID、高度ID、宽度ID。
- 模型处理不同分辨率图像块的批次,与标准ViT模型不同。
- PyTorch的eval模式会影响模型前向传播,评估前需调用model.eval()。
- LiDAR分数基于训练数据随机子集计算,恢复训练时可能变化。
- 仅支持单GPU训练,可选用PILLOW-SIMD加速数据加载。
- 隐藏特性包括TOME、可学习的绝对分解位置编码,以及多种预测器训练选项。
- 实验表明,向编码器和预测器添加注册令牌会显著降低性能。