Hasty Briefsbeta

双语

Refrag: Rethinking RAG Based Decoding

8 months ago

#LLM
#RAG
#Efficiency

REFRAG被提出作为一种高效的解码框架，专为RAG应用设计。
它解决了大语言模型中知识丰富性与系统效率之间的权衡问题。
通过压缩、感知和扩展三阶段处理，REFRAG显著降低延迟，首token生成时间加速达30.85%。
该框架在不损失模型困惑度的前提下，将大语言模型的上下文窗口扩展了16倍。
在多样化长上下文任务中的验证表明，相较LLaMA模型，该框架在保持准确性的同时实现了显著加速。