Hasty Briefsbeta

双语

FastVLM: Dramatically Faster Vision Language Model from Apple

a year ago

#Computer Vision
#Machine Learning
#AI Efficiency

FastVLM提出FastViTHD混合视觉编码器，专为高分辨率图像设计，显著减少token数量并降低编码时间
最小模型变体性能超越LLaVA-OneVision-0.5B，首字延迟快85倍，视觉编码器体积缩小3.4倍
采用Qwen2-7B大语言模型的更大变体超越Cambrian-1-8B，首字延迟快7.9倍且仅需单图像编码器
包含iOS演示应用，展示移动端性能表现
提供基于LLaVA代码库的训练与推理指导说明
配置需创建conda环境并通过pip安装依赖
开放FastVLM-0.5B/1.5B/7B三个量级的预训练模型检查点
包含PyTorch和Apple Silicon平台的推理运行指南
附CVPR 2025论文引用信息与致谢内容
使用前需查阅仓库许可协议与模型授权条款