Hasty Briefsbeta

双语

GitHub - datalab-to/chandra: OCR model that handles complex tables, forms, handwriting with full layout.

14 days ago

#Document Intelligence
#OCR
#Multilingual

Chandra OCR 2 是一款先进的 OCR 模型，可将图像和 PDF 转换为结构化的 HTML、Markdown 或 JSON，同时保留布局信息。
它支持超过 90 种语言，擅长处理手写文字、表格、数学公式、表单和复杂布局，并能提取带标题的图像。
该模型提供两种推理模式：本地（HuggingFace）和远程（vLLM 服务器），并配有托管 API 和免费测试平台。
基准测试结果显示，Chandra 2 在多语言和通用 OCR 任务中表现优异，在 olmocr 基准测试中名列前茅，并在内部指标上有所提升。
可通过 pip 安装，支持不同后端选项，其命令行工具允许处理单个文件或目录，并提供多种可配置选项。
输出包括 Markdown、HTML 和 JSON 文件，以及提取的图像和元数据，按结构化目录组织。
代码采用 Apache 2.0 许可，模型权重使用修改后的 OpenRAIL-M 许可，在特定条件下可免费用于研究、个人使用和初创企业。
性能基准测试将 Chandra 2 与 Datalab API、dots.ocr 和 GPT-4o 等模型进行比较，显示其在准确性和速度上具有竞争力。