Hasty Briefsbeta

双语

Refrag: Rethinking RAG Based Decoding

8 months ago
  • #LLM
  • #RAG
  • #Efficiency
  • REFRAG被提出作为一种高效的解码框架,专为RAG应用设计。
  • 它解决了大语言模型中知识丰富性与系统效率之间的权衡问题。
  • 通过压缩、感知和扩展三阶段处理,REFRAG显著降低延迟,首token生成时间加速达30.85%。
  • 该框架在不损失模型困惑度的前提下,将大语言模型的上下文窗口扩展了16倍。
  • 在多样化长上下文任务中的验证表明,相较LLaMA模型,该框架在保持准确性的同时实现了显著加速。