Hasty Briefsbeta

双语

New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second

6 months ago

#LLM Security
#AI Agents
#Prompt Injection

两篇关于大语言模型安全和提示注入的新论文被讨论。
《智能体双规则：AI智能体安全的实用方法》提出受'致命三重奏'和谷歌浏览器'双规则'启发的'双规则'。
该规则规定智能体最多只能满足三个属性中的两个，以避免提示注入的高影响后果。
这三个属性是：处理不可信输入、访问敏感系统/数据、以及改变状态或与外部通信。
'致命三重奏'模型仅限于数据泄露风险，而'双规则'包含状态改变，覆盖更多风险。
《攻击者后手》论文使用自适应攻击评估了12种针对提示注入和越狱的防御措施。
包括基于梯度、强化学习和搜索方法在内的自适应攻击，以超过90%的成功率击败了大多数防御。
人类红队测试对所有防御措施取得了100%的成功率。
论文强调了自适应评估对防御开发的重要性。
结论表明目前尚无可靠的提示注入防御措施，支持将'智能体双规则'作为当前最佳实践。