GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ l

2 months ago

PaddleOCR是行业领先的OCR和文档AI引擎，提供从文本提取到智能文档理解的端到端解决方案。
PaddleOCR 3.0带来重大升级，包括通用场景文本识别的PP-OCRv5、复杂文档解析的PP-StructureV3，以及智能信息提取的PP-ChatOCRv4。
PaddleOCR-VL-1.5是9亿参数的视觉语言模型，支持111种语言的真实场景文档解析与文本定位，在复杂场景表现优异。
PaddleOCR提供模型训练、推理和服务部署的易用工具，助力快速构建AI应用。
该工具包支持JSON、Markdown等多语言多格式，并与RAGFlow、MinerU等项目深度集成。
PaddleOCR 3.x包含不兼容2.x版本的接口变更，需查阅对应版本文档。
官网提供在线体验、大规模PDF解析和免费API服务。
PaddleOCR-VL以极低资源消耗实现文档解析与元素识别的SOTA性能。
PP-OCRv5提升109种语言识别能力，准确率提升13%。
PP-StructureV3将复杂PDF转为结构化格式，性能超越商业解决方案。

Hasty Briefsbeta