Show HN: RAG-chunk – A CLI to test RAG chunking strategies
3 months ago
- #RAG
- #Markdown
- #CLI
- 用于RAG准备的Markdown文档解析、分块和评估的CLI工具
- 已在PyPI发布:https://pypi.org/project/rag-chunk/
- 功能包括Markdown文件解析清洗、三种分块策略(固定大小/滑动窗口/段落)、基于召回率的评估、多格式输出(表格/JSON/CSV)
- 通过pip安装:`pip install rag-chunk` 或开发模式 `pip install -e .`
- 支持多种策略和参数分析markdown文件
- 基于含问题与相关短语的测试JSON文件进行召回率评估
- 未来计划支持tiktoken实现精准的token分块、更多分块策略及文件类型
- 项目结构包含src、tests、examples和.chunks目录
- 采用MIT许可证