Hasty Briefsbeta

双语

The Role of Feature Normalization in Ijepa

9 months ago
  • #ViT-Small
  • #dependency management
  • #machine learning
  • 使用UV进行依赖管理。
  • 需要下载数据集和NYU-Depth压缩文件,约需100GB存储空间。
  • 默认训练配置采用约3亿参数的ViT-Small模型,耗时116小时,消耗约22GB显存。
  • 支持恢复训练、评估IN1k验证集性能、可视化特征及绘制损失曲线。
  • 代码中的token_ids为LongTensor类型,每个token含四个整数:注册ID、样本ID、高度ID、宽度ID。
  • 模型处理不同分辨率图像块的批次,与标准ViT模型不同。
  • PyTorch的eval模式会影响模型前向传播,评估前需调用model.eval()。
  • LiDAR分数基于训练数据随机子集计算,恢复训练时可能变化。
  • 仅支持单GPU训练,可选用PILLOW-SIMD加速数据加载。
  • 隐藏特性包括TOME、可学习的绝对分解位置编码,以及多种预测器训练选项。
  • 实验表明,向编码器和预测器添加注册令牌会显著降低性能。