Hasty Briefsbeta

双语

Measuring AI agent autonomy in practice

8 days ago

#AI autonomy
#human-agent interaction
#AI safety

AI代理正被部署于各种场景中，从邮件分类到网络间谍活动，但对其实际自主性的理解仍存在局限。
对数百万次人机交互的分析显示，Claude Code的自主运行时长持续增长，三个月内会话时长近乎翻倍。
Claude Code的资深用户更频繁地自动批准操作，但中断次数也更多，这表明监督策略正在发生转变。
在复杂任务中，Claude Code主动暂停寻求澄清的频率高于人类中断它的次数，这暗示了其内置的安全机制。
AI代理被应用于医疗、金融和网络安全等高风险领域，但大多数操作仍属低风险且可逆，其中软件工程占据主导地位。
有效监管AI代理需要建立新的监测基础设施和人机交互范式，以协同管理自主性与风险。
该研究强调需加强部署后监测、训练模型识别不确定性，并设计支持用户监督功能的产品，而非强制规定具体交互模式。