GitHub - datalab-to/chandra: OCR model that handles complex tables, forms, handwriting with full layout.
14 days ago
- #Document Intelligence
- #OCR
- #Multilingual
- Chandra OCR 2 是一款先进的 OCR 模型,可将图像和 PDF 转换为结构化的 HTML、Markdown 或 JSON,同时保留布局信息。
- 它支持超过 90 种语言,擅长处理手写文字、表格、数学公式、表单和复杂布局,并能提取带标题的图像。
- 该模型提供两种推理模式:本地(HuggingFace)和远程(vLLM 服务器),并配有托管 API 和免费测试平台。
- 基准测试结果显示,Chandra 2 在多语言和通用 OCR 任务中表现优异,在 olmocr 基准测试中名列前茅,并在内部指标上有所提升。
- 可通过 pip 安装,支持不同后端选项,其命令行工具允许处理单个文件或目录,并提供多种可配置选项。
- 输出包括 Markdown、HTML 和 JSON 文件,以及提取的图像和元数据,按结构化目录组织。
- 代码采用 Apache 2.0 许可,模型权重使用修改后的 OpenRAIL-M 许可,在特定条件下可免费用于研究、个人使用和初创企业。
- 性能基准测试将 Chandra 2 与 Datalab API、dots.ocr 和 GPT-4o 等模型进行比较,显示其在准确性和速度上具有竞争力。