Hasty Briefsbeta

双语

LLM Alloying Improves Performance over Single Model

10 months ago
  • #AI Agents
  • #Cybersecurity
  • #LLM Optimization
  • XBOW开发了一种创新理念来提升漏洞检测代理的性能,将成功率从25%提高到55%。
  • 该理念采用'模型合金'策略,在同一代理循环中交替使用不同大语言模型(如Sonnet和Gemini)以融合其优势。
  • 当任务需要多重独特见解且模型具备互补优势时,模型合金效果最佳。
  • 合金策略的表现超越单一模型,尤其是组合不同供应商的模型时(例如Sonnet 4.0 + Gemini 2.5 Pro)。
  • 关键优势在于保持相同模型调用次数的同时,能利用多样化模型能力。
  • 当模型过于相似或任务需要稳定推进而非突发性见解时,合金策略效果较弱。
  • XBOW评估过任务专属模型委派或多代理辩论等替代方案,但认为这些方案对其用例效率不足。
  • 数据显示合金化代理(Sonnet+Gemini)达成68.8%成功率,显著优于单一模型(Sonnet:57.5%,Gemini:46.4%)。