Evaluation of Claude Mythos Preview's cyber capabilities

3 days ago

人工智能安全研究所（AISI）对Anthropic的Claude Mythos Preview进行了评估，发现其在网络安全能力上超越了先前的前沿模型。
Mythos Preview在73%的专家级夺旗（CTF）挑战中取得成功，这一水平在2025年4月之前尚无模型达成。
在多步骤网络靶场‘The Last Ones’（TLO）中，Mythos Preview在10次尝试中有3次从头到尾完成了32步攻击模拟，平均完成步骤为22步。
该模型显示出局限性，例如无法完成以操作技术为重点的靶场‘Cooling Tower’，尽管它在IT部分而非OT特定问题上遇到困难。
预期性能会随着更多推理计算资源而提升，因为Mythos Preview的能力在评估中使用的1亿令牌预算范围内可扩展。
虽然能够攻击易受攻击的企业系统，但评估缺乏如主动监控等真实世界防御措施，因此不确定Mythos Preview是否能突破防御良好的环境。
随着具备这些能力的模型变得更加普遍，组织应优先考虑基本网络安全措施，如定期更新和强有力的访问控制，并投资于防御以应对未来的AI威胁。

Hasty Briefsbeta