Show HN: Built a tool solve the nightmare of chunking tables in PDF vs. Markdown
3 months ago
- #AI
- #DataPrivacy
- #RAG
- 停止在RAG管道中使用静态分块大小。
- 推出一个轻量级、生产就绪的RAG数据摄取工具包,采用智能启发式方法实现最优分块。
- 作为注重数据隐私的私有化AI平台组成部分,可在自有硬件上运行。
- 解决静态分块在处理PDF、源代码和结构化Markdown等复杂文档时的局限性。
- 通过Docling实现布局感知解析,理解文档结构。
- 针对不同文件类型实施智能分块启发式算法。
- 生产就绪的轻量级方案,无复杂依赖项。
- 通过将PDF表格转换为Markdown格式来保留表格结构再进行分块。
- 未来计划将该工具包发布为pip可安装版本。
- 开源项目欢迎创意贡献与合作。