Hasty Briefsbeta

双语

Show HN: RAG-chunk – A CLI to test RAG chunking strategies

3 months ago
  • #RAG
  • #Markdown
  • #CLI
  • 用于RAG准备的Markdown文档解析、分块和评估的CLI工具
  • 已在PyPI发布:https://pypi.org/project/rag-chunk/
  • 功能包括Markdown文件解析清洗、三种分块策略(固定大小/滑动窗口/段落)、基于召回率的评估、多格式输出(表格/JSON/CSV)
  • 通过pip安装:`pip install rag-chunk` 或开发模式 `pip install -e .`
  • 支持多种策略和参数分析markdown文件
  • 基于含问题与相关短语的测试JSON文件进行召回率评估
  • 未来计划支持tiktoken实现精准的token分块、更多分块策略及文件类型
  • 项目结构包含src、tests、examples和.chunks目录
  • 采用MIT许可证