- FastVLM提出FastViTHD混合视觉编码器,专为高分辨率图像设计,显著减少token数量并降低编码时间
- 最小模型变体性能超越LLaVA-OneVision-0.5B,首字延迟快85倍,视觉编码器体积缩小3.4倍
- 采用Qwen2-7B大语言模型的更大变体超越Cambrian-1-8B,首字延迟快7.9倍且仅需单图像编码器
- 包含iOS演示应用,展示移动端性能表现
- 提供基于LLaVA代码库的训练与推理指导说明
- 配置需创建conda环境并通过pip安装依赖
- 开放FastVLM-0.5B/1.5B/7B三个量级的预训练模型检查点
- 包含PyTorch和Apple Silicon平台的推理运行指南
- 附CVPR 2025论文引用信息与致谢内容
- 使用前需查阅仓库许可协议与模型授权条款