Zpdf: PDF text extraction in Zig – 5x faster than MuPDF
2 months ago
- #Zig
- #Text Extraction
- 一个用Zig语言编写的PDF文本提取库
- 支持内存映射文件读取以实现高效大文件处理
- 无需中间分配即可实现流式文本提取
- 包含多种解压过滤器:FlateDecode、ASCII85、ASCIIHex、LZW、RunLength
- 字体编码支持WinAnsi、MacRoman及ToUnicode CMap
- 具备XRef表和流解析能力(PDF 1.5+)
- 提供可配置的错误处理(严格或宽松模式)
- 支持多线程并行页面提取
- 性能基准测试显示较MuPDF有显著加速
- 峰值吞吐量:41,000页/秒(Intel SDM平台并行测试)
- 使用'zig build -Doptimize=ReleaseFast'构建以获得最佳效果
- 包含CLI工具支持文本提取、文档信息查看和性能测试
- 库结构包含解析、解压、编码等多个功能模块
- 已实现功能涵盖XRef解析、增量PDF更新和CID字体处理
- 采用MIT许可证