Hasty Briefsbeta

双语

Study: Self-generated Agent Skills are useless

3 months ago
  • #Benchmarking
  • #Agent Skills
  • #Artificial Intelligence
  • 智能体技能是增强LLM智能体推理能力的结构化程序知识包
  • SkillsBench作为基准测试集被提出,包含11个领域86项任务,配套精选技能库和确定性验证器
  • 任务评估设置三种条件:无技能辅助、使用精选技能、使用自主生成技能
  • 精选技能使平均通过率提升16.2个百分点,但不同领域效果差异显著
  • 自主生成技能未显现平均增益,表明模型无法可靠创建其所需程序知识
  • 包含2-3个模块的聚焦型技能表现优于全面文档
  • 配备技能的小模型可达到无技能大模型的性能水平