Hasty Briefsbeta

双语

Ollama's new engine for multimodal models

a year ago

#multimodal-models
#machine-learning
#AI-engineering

Ollama现通过新引擎支持多模态模型，首推视觉多模态模型Llama 4 Scout和Gemma 3
Llama 4 Scout是拥有1090亿参数的模型，可基于视频帧回答地理位置相关问题
Gemma 3能同时分析多张图像并识别共同元素，例如所有图片中出现的动物
Qwen 2.5 VL专用于文档扫描和字符识别，包括将中文春联翻译成英文
Ollama新引擎提升了本地推理的可靠性和准确性，未来将支持语音、图像及视频生成
模块化设计确保每个模型独立封装，极大简化创作者和开发者的集成流程
准确性改进包括大尺寸图像处理和确保位置信息在处理过程中的正确性
内存管理功能涵盖图像缓存机制和内存使用效率优化
Ollama正与硬件制造商合作优化各类设备的推理性能
未来规划包括支持更长上下文、流式响应推理与工具调用、实现计算机操作支持