Hasty Briefsbeta

双语

Detecting and Preventing Distillation Attacks

2 days ago

#distillation attacks
#AI security
#national security

AI实验室（深度求索、月之暗面、MiniMax）通过工业规模的蒸馏攻击提取Claude模型能力
通过24000个虚假账号进行超1600万次数据交换，违反服务条款和地区限制
蒸馏本是合法方法，但被用于快速廉价获取能力的非法途径
日益猖獗的复杂攻击活动需要行业与政策层面的协同应对
非法蒸馏模型缺乏安全护栏，可能引发生物武器、网络威胁等国家安全风险
境外实验室可将无防护能力注入军事、情报及监控系统
蒸馏攻击使外国实验室绕过限制，削弱美国出口管制效力
深度求索主要针对推理能力、评分任务及审查规避方案（超15万次数据交换）
月之暗面聚焦智能体推理、编程及计算机视觉（超340万次数据交换）
MiniMax主攻智能体编程与工具使用（超1300万次），能快速适配新发布模型
实验室使用'九头蛇集群'等代理服务突破地区访问限制
Anthropic的应对措施包括攻击检测、情报共享、访问控制及反制手段
单家企业无法解决该问题，需建立全行业协同机制