Hasty Briefsbeta

双语

GLM-4.5V: An open-source multimodal large language model from Zhipu AI

9 months ago

#Open Source
#Multimodal AI
#Vision-Language Models

GLM-4.5V与GLM-4.1V系列模型正式开源，显著增强视觉语言模型（VLM）的推理能力
GLM-4.5V在多项基准测试中实现重大突破，并推出桌面助手应用辅助调试
GLM-4.1V-9B-Thinking引入创新推理范式与RLCS技术，在18项任务中超越更大规模模型
两个模型均支持多模态预处理，但采用不同的对话模板
提供NVIDIA GPU的安装与推理指南，支持SGLang和vLLM两种方案
通过LLaMA-Factory提供微调支持，并附数据集构建示例
GLM-4.5V聚焦现实场景应用，可处理多样化视觉内容，新增思维模式切换功能
已知问题包括前端代码复现错误、过度推理及偶发性答案重复
为学术研究提供完整的技术细节与引用规范