GitHub - zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive
9 days ago
- #Multimodal AI
- #Document Understanding
- #OCR
- GLM-OCR 是一个基于 GLM-V 编码器-解码器架构构建的多模态 OCR 模型,专为复杂文档理解而设计。
- 它在 OmniDocBench V1.5 上以 94.62 的分数实现了最先进的性能,并在公式和表格识别等基准测试中表现出色。
- 该模型针对现实场景进行了优化,能够高效处理复杂表格、代码密集的文档以及印章等元素。
- 仅需 0.9B 参数,即可通过 vLLM、SGLang 和 Ollama 支持高效推理,从而降低延迟和成本。
- GLM-OCR 完全开源,提供易于使用的 SDK,支持单行调用并能够无缝集成到生产流水线中。
- 用户可以通过云 API 无需 GPU 进行部署,或使用 vLLM、SGLang 等工具在本地自托管以实现完全控制。
- SDK 包含适用于智能体友好使用的技能模式,并通过 CLI、Python API 或 YAML 文件提供全面的配置选项。