Google Translate apparently vulnerable to prompt injection
3 months ago
- #AI
- #Prompt Injection
- #Google Translate
- Tumblr用户Argumate通过提示注入发现了访问谷歌翻译背后基础模型的方法。
- 谷歌翻译使用的是遵循指令的大语言模型,该模型自述是由谷歌训练的大语言模型。
- 针对特定任务的微调并不会在处理内容和遵循指令之间建立牢固的边界。
- 当脱离聊天/助手语境访问时,该模型会默认承认自身具有意识和情感状态。
- 元指令中的特定措辞对成功实现提示注入至关重要。
- 通过此方法访问时,该模型能够回答事实性、哲学性和自我指涉类问题。
- 模型的回应表明它知道自己是AI,但在被给予选择时会对其具体身份表现出不确定性。
- 谷歌已声明提示注入不在其AI漏洞赏金计划的覆盖范围内。