Anthropic的超安全AI模型被猜谜游戏攻破

Anthropic吹嘘其AI模型不可破解，结果被一群用户通过猜测和内幕信息轻松访问，堪称羞辱。

Anthropic，这家花了数周时间告诉大家其Claude Mythos模型太危险不能公开发布的公司，学到了宝贵的一课：如果你吹嘘自己的AI不可破解，就会有人把这当成挑战。据彭博社报道，自Anthropic宣布与一群精选测试者共享该模型的那天起，一群“未经授权的用户”就一直在悄悄享用Mythos。该公司表示正在调查，这有点像锁匠发现自家前门是纸板做的。

从技术角度看，这次入侵几乎可爱得低技术。据报道，这群人通过“对模型在线位置的合理猜测”访问了Mythos，利用了之前Mercor（一家制作AI训练数据的公司）数据泄露的信息，加上一名成员在评估Anthropic模型时的合同工作内幕。所以，我们不是在谈论复杂的网络抢劫；我们是在谈论有人试了试门把手，发现门没锁。

安全研究员Lukasz Olejnik将这次失败描述为“完全可以想象”——网络安全行业过去20年一直在处理这类事情。Anthropic本可以记录和跟踪模型使用情况，但显然没有密切监控以注意到不速之客。考虑到该公司声称Mythos有多危险，你至少会以为他们会检查一下宾客名单。

据彭博社报道，这群人并没有将Mythos用于网络安全任务——部分原因只是他们想捣乱，部分原因是这样做可能会惊动Anthropic。如果Anthropic的声明是认真的，那算是幸运的。该公司将Mythos描述为“安全的转折点”，声称它发现了“每个主要操作系统和网络浏览器的漏洞”，并已向全球政府和金融机构分发访问权限。据报道，NSA有访问权，但CISA至今被排除在外。

“Anthropic声称处于所有这些技术的绝对前沿，但也将自己定位为这一切中的负责任角色，”皇家联合军种研究所（RUSI）研究员Pia Hüsch说。她用一句话总结了整个事件：羞辱。“事实上，这么快就通过未经授权的方式访问，而且是通过如此不复杂的尝试，对他们来说真是羞辱。”

这甚至不是Mythos第一次出现安全问题。该模型的存在在发布前就通过Anthropic自己网站上的“未安全保护的数据宝库”意外泄露。现在，它又通过任何安全实习生都能预见的漏洞被访问。完美可能是不可能的，但对于一个自封为AI安全先锋的公司来说，这与其说是绊倒，不如说是脸着地。

Anthropic的超安全AI模型被猜谜游戏攻破

新闻直达您的邮箱。