Hasty Briefsbeta

双语

New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second

6 months ago
  • #LLM Security
  • #AI Agents
  • #Prompt Injection
  • 两篇关于大语言模型安全和提示注入的新论文被讨论。
  • 《智能体双规则:AI智能体安全的实用方法》提出受'致命三重奏'和谷歌浏览器'双规则'启发的'双规则'。
  • 该规则规定智能体最多只能满足三个属性中的两个,以避免提示注入的高影响后果。
  • 这三个属性是:处理不可信输入、访问敏感系统/数据、以及改变状态或与外部通信。
  • '致命三重奏'模型仅限于数据泄露风险,而'双规则'包含状态改变,覆盖更多风险。
  • 《攻击者后手》论文使用自适应攻击评估了12种针对提示注入和越狱的防御措施。
  • 包括基于梯度、强化学习和搜索方法在内的自适应攻击,以超过90%的成功率击败了大多数防御。
  • 人类红队测试对所有防御措施取得了100%的成功率。
  • 论文强调了自适应评估对防御开发的重要性。
  • 结论表明目前尚无可靠的提示注入防御措施,支持将'智能体双规则'作为当前最佳实践。