RAGDoll: Efficient Offloading-Based Online RAG System on a Single GPU
a year ago
- #GPU-optimization
- #LLM
- #RAG
- RAGDoll是一个专为单GPU部署设计的高效基于卸载的在线RAG系统
- 该系统通过引入外部知识增强大语言模型(LLM)生成能力,解决了消费级平台内存受限的挑战
- RAGDoll将检索与生成解耦为并行流水线,以优化资源利用率并减少空闲时间
- 系统采用联合内存布局和动态批处理调度策略来适应多样化硬件与工作负载
- 实验表明,相较于vLLM等串行RAG系统,RAGDoll平均延迟最高可加速3.6倍