93% of GPT-4 performance at 1/4 cost: LLM routing with weak bandit feedback
9 months ago
- #LLM Routing
- #Machine Learning
- #Contextual Bandit
- LLM路由动态选择最适合每个查询/任务的大语言模型
- 先前方法将LLM路由视为监督学习问题,假设存在最优查询-模型配对
- 现实场景缺乏完整映射关系且面临用户查询的持续演变
- 提出将LLM路由建模为上下文老虎机问题以实现自适应决策
- 开发查询与LLM的共享嵌入空间以反映其亲和度
- 提出PILOT算法(基于偏好先验的LinUCB自适应路由),扩展LinUCB框架
- 通过在线成本策略(建模为多选择背包问题)应对多样化用户预算