New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second
6 months ago
- #LLM Security
- #AI Agents
- #Prompt Injection
- 两篇关于大语言模型安全和提示注入的新论文被讨论。
- 《智能体双规则:AI智能体安全的实用方法》提出受'致命三重奏'和谷歌浏览器'双规则'启发的'双规则'。
- 该规则规定智能体最多只能满足三个属性中的两个,以避免提示注入的高影响后果。
- 这三个属性是:处理不可信输入、访问敏感系统/数据、以及改变状态或与外部通信。
- '致命三重奏'模型仅限于数据泄露风险,而'双规则'包含状态改变,覆盖更多风险。
- 《攻击者后手》论文使用自适应攻击评估了12种针对提示注入和越狱的防御措施。
- 包括基于梯度、强化学习和搜索方法在内的自适应攻击,以超过90%的成功率击败了大多数防御。
- 人类红队测试对所有防御措施取得了100%的成功率。
- 论文强调了自适应评估对防御开发的重要性。
- 结论表明目前尚无可靠的提示注入防御措施,支持将'智能体双规则'作为当前最佳实践。