Hasty Briefsbeta

双语

Show HN: Built a tool solve the nightmare of chunking tables in PDF vs. Markdown

3 months ago
  • #AI
  • #DataPrivacy
  • #RAG
  • 停止在RAG管道中使用静态分块大小。
  • 推出一个轻量级、生产就绪的RAG数据摄取工具包,采用智能启发式方法实现最优分块。
  • 作为注重数据隐私的私有化AI平台组成部分,可在自有硬件上运行。
  • 解决静态分块在处理PDF、源代码和结构化Markdown等复杂文档时的局限性。
  • 通过Docling实现布局感知解析,理解文档结构。
  • 针对不同文件类型实施智能分块启发式算法。
  • 生产就绪的轻量级方案,无复杂依赖项。
  • 通过将PDF表格转换为Markdown格式来保留表格结构再进行分块。
  • 未来计划将该工具包发布为pip可安装版本。
  • 开源项目欢迎创意贡献与合作。