Hasty Briefsbeta

双语

GitHub - zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive

9 days ago
  • #Multimodal AI
  • #Document Understanding
  • #OCR
  • GLM-OCR 是一个基于 GLM-V 编码器-解码器架构构建的多模态 OCR 模型,专为复杂文档理解而设计。
  • 它在 OmniDocBench V1.5 上以 94.62 的分数实现了最先进的性能,并在公式和表格识别等基准测试中表现出色。
  • 该模型针对现实场景进行了优化,能够高效处理复杂表格、代码密集的文档以及印章等元素。
  • 仅需 0.9B 参数,即可通过 vLLM、SGLang 和 Ollama 支持高效推理,从而降低延迟和成本。
  • GLM-OCR 完全开源,提供易于使用的 SDK,支持单行调用并能够无缝集成到生产流水线中。
  • 用户可以通过云 API 无需 GPU 进行部署,或使用 vLLM、SGLang 等工具在本地自托管以实现完全控制。
  • SDK 包含适用于智能体友好使用的技能模式,并通过 CLI、Python API 或 YAML 文件提供全面的配置选项。