Hasty Briefsbeta

双语

OpenDataLoader-PDF: An open source tool for structured PDF parsing

5 months ago
  • #AI-integration
  • #document-layout
  • #PDF-processing
  • OpenDataLoader-PDF 可将PDF转换为JSON、Markdown或HTML格式,适配LLM、向量搜索和RAG等AI技术栈
  • 通过重建文档布局(标题/列表/表格/阅读顺序),实现更便捷的文本分块、索引与查询
  • 支持本地化高吞吐量处理,内置AI安全功能可过滤提示注入等恶意内容
  • 输出支持丰富结构化格式(JSON/Markdown/HTML)并重建各类文档元素布局
  • 核心功能包含:扫描件OCR识别、无边框/合并单元格的表格AI处理、带标注的PDF可视化
  • 透明公开性能基准与AI红队测试报告,提供开放数据集和评估指标
  • 运行环境要求Java 11+和Python 3.9+
  • 提供CLI命令行与API两种调用方式,支持自定义输出格式和安全过滤器
  • 附详细API文档、配置选项说明及贡献指南
  • 采用Mozilla Public License 2.0开源协议,商标与标识使用需遵循品牌规范