Hasty Briefsbeta

双语

X-ray: a Python library for finding bad redactions in PDF documents

2 months ago
  • #security
  • #PDF
  • #redaction
  • x-ray 是一个用于检测PDF文档中不当涂白的Python库。
  • 不当涂白通常表现为覆盖文本的黑色矩形或高亮区域,这些内容仍可被选中并读取。
  • 该工具通过分析PDF来识别此类错误涂白,并输出包含页码、边界框和隐藏文本等细节的JSON数据。
  • 可通过pip或uv安装x-ray,支持命令行调用或作为Python模块使用。
  • 支持处理本地文件、URL链接和内存中的PDF字节流。
  • 底层实现采用PyMuPDF进行PDF解析和基于图像的矩形区域检测。
  • 该项目采用BSD开源协议,欢迎贡献代码(需签署贡献者许可协议)。
  • 版本发布通过GitHub Actions自动化实现,由版本更新和标签触发。