Hasty Briefsbeta

双语

93% of GPT-4 performance at 1/4 cost: LLM routing with weak bandit feedback

9 months ago

#LLM Routing
#Machine Learning
#Contextual Bandit

LLM路由动态选择最适合每个查询/任务的大语言模型
先前方法将LLM路由视为监督学习问题，假设存在最优查询-模型配对
现实场景缺乏完整映射关系且面临用户查询的持续演变
提出将LLM路由建模为上下文老虎机问题以实现自适应决策
开发查询与LLM的共享嵌入空间以反映其亲和度
提出PILOT算法（基于偏好先验的LinUCB自适应路由），扩展LinUCB框架
通过在线成本策略（建模为多选择背包问题）应对多样化用户预算