Hasty Briefsbeta

双语

GitHub - zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive

9 days ago

#Multimodal AI
#Document Understanding
#OCR

GLM-OCR 是一个基于 GLM-V 编码器-解码器架构构建的多模态 OCR 模型，专为复杂文档理解而设计。
它在 OmniDocBench V1.5 上以 94.62 的分数实现了最先进的性能，并在公式和表格识别等基准测试中表现出色。
该模型针对现实场景进行了优化，能够高效处理复杂表格、代码密集的文档以及印章等元素。
仅需 0.9B 参数，即可通过 vLLM、SGLang 和 Ollama 支持高效推理，从而降低延迟和成本。
GLM-OCR 完全开源，提供易于使用的 SDK，支持单行调用并能够无缝集成到生产流水线中。
用户可以通过云 API 无需 GPU 进行部署，或使用 vLLM、SGLang 等工具在本地自托管以实现完全控制。
SDK 包含适用于智能体友好使用的技能模式，并通过 CLI、Python API 或 YAML 文件提供全面的配置选项。