Detecting and Preventing Distillation Attacks
2 days ago
- #distillation attacks
- #AI security
- #national security
- AI实验室(深度求索、月之暗面、MiniMax)通过工业规模的蒸馏攻击提取Claude模型能力
- 通过24000个虚假账号进行超1600万次数据交换,违反服务条款和地区限制
- 蒸馏本是合法方法,但被用于快速廉价获取能力的非法途径
- 日益猖獗的复杂攻击活动需要行业与政策层面的协同应对
- 非法蒸馏模型缺乏安全护栏,可能引发生物武器、网络威胁等国家安全风险
- 境外实验室可将无防护能力注入军事、情报及监控系统
- 蒸馏攻击使外国实验室绕过限制,削弱美国出口管制效力
- 深度求索主要针对推理能力、评分任务及审查规避方案(超15万次数据交换)
- 月之暗面聚焦智能体推理、编程及计算机视觉(超340万次数据交换)
- MiniMax主攻智能体编程与工具使用(超1300万次),能快速适配新发布模型
- 实验室使用'九头蛇集群'等代理服务突破地区访问限制
- Anthropic的应对措施包括攻击检测、情报共享、访问控制及反制手段
- 单家企业无法解决该问题,需建立全行业协同机制