Hasty Briefsbeta

双语

93% of GPT-4 performance at 1/4 cost: LLM routing with weak bandit feedback

9 months ago
  • #LLM Routing
  • #Machine Learning
  • #Contextual Bandit
  • LLM路由动态选择最适合每个查询/任务的大语言模型
  • 先前方法将LLM路由视为监督学习问题,假设存在最优查询-模型配对
  • 现实场景缺乏完整映射关系且面临用户查询的持续演变
  • 提出将LLM路由建模为上下文老虎机问题以实现自适应决策
  • 开发查询与LLM的共享嵌入空间以反映其亲和度
  • 提出PILOT算法(基于偏好先验的LinUCB自适应路由),扩展LinUCB框架
  • 通过在线成本策略(建模为多选择背包问题)应对多样化用户预算