Hasty Briefsbeta

双语

GLM-4.5V: An open-source multimodal large language model from Zhipu AI

9 months ago
  • #Open Source
  • #Multimodal AI
  • #Vision-Language Models
  • GLM-4.5V与GLM-4.1V系列模型正式开源,显著增强视觉语言模型(VLM)的推理能力
  • GLM-4.5V在多项基准测试中实现重大突破,并推出桌面助手应用辅助调试
  • GLM-4.1V-9B-Thinking引入创新推理范式与RLCS技术,在18项任务中超越更大规模模型
  • 两个模型均支持多模态预处理,但采用不同的对话模板
  • 提供NVIDIA GPU的安装与推理指南,支持SGLang和vLLM两种方案
  • 通过LLaMA-Factory提供微调支持,并附数据集构建示例
  • GLM-4.5V聚焦现实场景应用,可处理多样化视觉内容,新增思维模式切换功能
  • 已知问题包括前端代码复现错误、过度推理及偶发性答案重复
  • 为学术研究提供完整的技术细节与引用规范