Hasty Briefsbeta

双语

Study: Self-generated Agent Skills are useless

3 months ago

#Benchmarking
#Agent Skills
#Artificial Intelligence

智能体技能是增强LLM智能体推理能力的结构化程序知识包
SkillsBench作为基准测试集被提出，包含11个领域86项任务，配套精选技能库和确定性验证器
任务评估设置三种条件：无技能辅助、使用精选技能、使用自主生成技能
精选技能使平均通过率提升16.2个百分点，但不同领域效果差异显著
自主生成技能未显现平均增益，表明模型无法可靠创建其所需程序知识
包含2-3个模块的聚焦型技能表现优于全面文档
配备技能的小模型可达到无技能大模型的性能水平