Hasty Briefsbeta

双语

LLM Alloying Improves Performance over Single Model

10 months ago

#AI Agents
#Cybersecurity
#LLM Optimization

XBOW开发了一种创新理念来提升漏洞检测代理的性能，将成功率从25%提高到55%。
该理念采用'模型合金'策略，在同一代理循环中交替使用不同大语言模型（如Sonnet和Gemini）以融合其优势。
当任务需要多重独特见解且模型具备互补优势时，模型合金效果最佳。
合金策略的表现超越单一模型，尤其是组合不同供应商的模型时（例如Sonnet 4.0 + Gemini 2.5 Pro）。
关键优势在于保持相同模型调用次数的同时，能利用多样化模型能力。
当模型过于相似或任务需要稳定推进而非突发性见解时，合金策略效果较弱。
XBOW评估过任务专属模型委派或多代理辩论等替代方案，但认为这些方案对其用例效率不足。
数据显示合金化代理（Sonnet+Gemini）达成68.8%成功率，显著优于单一模型（Sonnet:57.5%，Gemini:46.4%）。