Hasty Briefsbeta

双语

FastVLM: Dramatically Faster Vision Language Model from Apple

a year ago
  • #Computer Vision
  • #Machine Learning
  • #AI Efficiency
  • FastVLM提出FastViTHD混合视觉编码器,专为高分辨率图像设计,显著减少token数量并降低编码时间
  • 最小模型变体性能超越LLaVA-OneVision-0.5B,首字延迟快85倍,视觉编码器体积缩小3.4倍
  • 采用Qwen2-7B大语言模型的更大变体超越Cambrian-1-8B,首字延迟快7.9倍且仅需单图像编码器
  • 包含iOS演示应用,展示移动端性能表现
  • 提供基于LLaVA代码库的训练与推理指导说明
  • 配置需创建conda环境并通过pip安装依赖
  • 开放FastVLM-0.5B/1.5B/7B三个量级的预训练模型检查点
  • 包含PyTorch和Apple Silicon平台的推理运行指南
  • 附CVPR 2025论文引用信息与致谢内容
  • 使用前需查阅仓库许可协议与模型授权条款