Hasty Briefsbeta

双语

Zpdf: PDF text extraction in Zig – 5x faster than MuPDF

2 months ago
  • #PDF
  • #Zig
  • #Text Extraction
  • 一个用Zig语言编写的PDF文本提取库
  • 支持内存映射文件读取以实现高效大文件处理
  • 无需中间分配即可实现流式文本提取
  • 包含多种解压过滤器:FlateDecode、ASCII85、ASCIIHex、LZW、RunLength
  • 字体编码支持WinAnsi、MacRoman及ToUnicode CMap
  • 具备XRef表和流解析能力(PDF 1.5+)
  • 提供可配置的错误处理(严格或宽松模式)
  • 支持多线程并行页面提取
  • 性能基准测试显示较MuPDF有显著加速
  • 峰值吞吐量:41,000页/秒(Intel SDM平台并行测试)
  • 使用'zig build -Doptimize=ReleaseFast'构建以获得最佳效果
  • 包含CLI工具支持文本提取、文档信息查看和性能测试
  • 库结构包含解析、解压、编码等多个功能模块
  • 已实现功能涵盖XRef解析、增量PDF更新和CID字体处理
  • 采用MIT许可证