X-ray: a Python library for finding bad redactions in PDF documents
2 months ago
- #security
- #redaction
- x-ray 是一个用于检测PDF文档中不当涂白的Python库。
- 不当涂白通常表现为覆盖文本的黑色矩形或高亮区域,这些内容仍可被选中并读取。
- 该工具通过分析PDF来识别此类错误涂白,并输出包含页码、边界框和隐藏文本等细节的JSON数据。
- 可通过pip或uv安装x-ray,支持命令行调用或作为Python模块使用。
- 支持处理本地文件、URL链接和内存中的PDF字节流。
- 底层实现采用PyMuPDF进行PDF解析和基于图像的矩形区域检测。
- 该项目采用BSD开源协议,欢迎贡献代码(需签署贡献者许可协议)。
- 版本发布通过GitHub Actions自动化实现,由版本更新和标签触发。