Study: Self-generated Agent Skills are useless
3 months ago
- #Benchmarking
- #Agent Skills
- #Artificial Intelligence
- 智能体技能是增强LLM智能体推理能力的结构化程序知识包
- SkillsBench作为基准测试集被提出,包含11个领域86项任务,配套精选技能库和确定性验证器
- 任务评估设置三种条件:无技能辅助、使用精选技能、使用自主生成技能
- 精选技能使平均通过率提升16.2个百分点,但不同领域效果差异显著
- 自主生成技能未显现平均增益,表明模型无法可靠创建其所需程序知识
- 包含2-3个模块的聚焦型技能表现优于全面文档
- 配备技能的小模型可达到无技能大模型的性能水平