Agency vs. Control vs. Reliability in Agent Design

a year ago

高代理任务要求代理能够胜任、可靠且一致地行动，尤其在客户支持等高价值应用场景中。
客户支持具有挑战性，因为存在知识缺口、用户缺乏耐心和时间限制，与理想环境中代理具备完整知识和宽容条件形成鲜明对比。
如Anthropic的'computer use'和OpenAI的DeepResearch等大语言模型在高代理任务上取得进展，但Fin等实际应用仍面临可靠性问题。
客户对代理的可靠性和控制力有很高期待，尤其在订阅管理、退款和上下文收集等敏感任务中。
衡量代理性能需通过模拟具有预定义结果、用户提示和停止条件的任务来评估可靠性与一致性。
'pass^k'指标比'pass@k'更严格，要求多次重复测试中保持稳定成功，这对客户支持可靠性至关重要。
代理能力与可靠性呈反比关系——高代理能力的代理在复杂任务中往往表现不稳定。
'Give Fin a Task'(GFAT)代理通过分步指令平衡代理能力与控制力，显著提升了简单和中等难度任务的可靠性。
GFAT的可组合性允许将复杂任务拆解为更简单可靠的步骤，从而提升整体性能和客户满意度。
早期基准测试显示，GFAT通过约束代理能力并强调结构化执行，在简单和中等难度任务上显著提高了可靠性。

Hasty Briefsbeta