OpenDataLoader-PDF: An open source tool for structured PDF parsing
5 months ago
- #AI-integration
- #document-layout
- #PDF-processing
- OpenDataLoader-PDF 可将PDF转换为JSON、Markdown或HTML格式,适配LLM、向量搜索和RAG等AI技术栈
- 通过重建文档布局(标题/列表/表格/阅读顺序),实现更便捷的文本分块、索引与查询
- 支持本地化高吞吐量处理,内置AI安全功能可过滤提示注入等恶意内容
- 输出支持丰富结构化格式(JSON/Markdown/HTML)并重建各类文档元素布局
- 核心功能包含:扫描件OCR识别、无边框/合并单元格的表格AI处理、带标注的PDF可视化
- 透明公开性能基准与AI红队测试报告,提供开放数据集和评估指标
- 运行环境要求Java 11+和Python 3.9+
- 提供CLI命令行与API两种调用方式,支持自定义输出格式和安全过滤器
- 附详细API文档、配置选项说明及贡献指南
- 采用Mozilla Public License 2.0开源协议,商标与标识使用需遵循品牌规范