GLM-4.5V: An open-source multimodal large language model from Zhipu AI
9 months ago
- #Open Source
- #Multimodal AI
- #Vision-Language Models
- GLM-4.5V与GLM-4.1V系列模型正式开源,显著增强视觉语言模型(VLM)的推理能力
- GLM-4.5V在多项基准测试中实现重大突破,并推出桌面助手应用辅助调试
- GLM-4.1V-9B-Thinking引入创新推理范式与RLCS技术,在18项任务中超越更大规模模型
- 两个模型均支持多模态预处理,但采用不同的对话模板
- 提供NVIDIA GPU的安装与推理指南,支持SGLang和vLLM两种方案
- 通过LLaMA-Factory提供微调支持,并附数据集构建示例
- GLM-4.5V聚焦现实场景应用,可处理多样化视觉内容,新增思维模式切换功能
- 已知问题包括前端代码复现错误、过度推理及偶发性答案重复
- 为学术研究提供完整的技术细节与引用规范