Hasty Briefsbeta

双语

Show HN: Docustore – Vectorized Technical Documentations

9 months ago
  • #RAG
  • #automation
  • #documentation
  • docustore是一个自动化流程工具,用于抓取软件文档并处理成可下载的知识包
  • 知识包包含经过清洗、分块和嵌入处理的文档,适用于离线RAG应用场景
  • 核心功能包括自动化内容抓取、智能文本分块、向量嵌入及持久化向量存储
  • 处理流程分为四个模块化阶段:抓取、缓存、处理和打包,采用可测试的设计架构
  • 运行环境要求安装Git、Python 3.9+及uv依赖管理工具
  • 通过config.toml配置文件设置抓取目标和嵌入模型等参数
  • 支持scrape/process/package/run等命令行指令控制流程执行
  • 最终生成.tar.gz格式的分发包,内含ChromaDB向量数据库
  • 典型应用场景是通过查询ChromaDB集合获取相关文档片段
  • 项目采用MIT开源协议授权