Measuring AI agent autonomy in practice
8 days ago
- #AI autonomy
- #human-agent interaction
- #AI safety
- AI代理正被部署于各种场景中,从邮件分类到网络间谍活动,但对其实际自主性的理解仍存在局限。
- 对数百万次人机交互的分析显示,Claude Code的自主运行时长持续增长,三个月内会话时长近乎翻倍。
- Claude Code的资深用户更频繁地自动批准操作,但中断次数也更多,这表明监督策略正在发生转变。
- 在复杂任务中,Claude Code主动暂停寻求澄清的频率高于人类中断它的次数,这暗示了其内置的安全机制。
- AI代理被应用于医疗、金融和网络安全等高风险领域,但大多数操作仍属低风险且可逆,其中软件工程占据主导地位。
- 有效监管AI代理需要建立新的监测基础设施和人机交互范式,以协同管理自主性与风险。
- 该研究强调需加强部署后监测、训练模型识别不确定性,并设计支持用户监督功能的产品,而非强制规定具体交互模式。