Anthropics supersäkra AI-modell hackas genom gissningslek

Anthropics 'för farlig för att släppas' AI-modell nåddes av obehöriga användare via en kvalificerad gissning och insiderinformation, vilket bevisar att arrogans fortfarande är den lättaste sårbarheten att utnyttja.

Anthropic, företaget som i veckor berättade för alla att deras Claude Mythos-modell var för farlig för offentlig lansering, har lärt sig en värdefull läxa: om du skryter om att din AI är ohackbar, kommer någon att ta det som en utmaning. Enligt Bloomberg har en "liten grupp obehöriga användare" i tysthet njutit av Mythos sedan dagen Anthropic meddelade att de delade modellen med en utvald grupp testare. Företaget säger att de utreder, vilket är lite som att en låssmed upptäcker att deras egen ytterdörr är gjord av kartong.

Ur en teknisk synvinkel är intrånget nästan rörande lågteknologiskt. Gruppen ska ha fått tillgång till Mythos genom att göra "en kvalificerad gissning om modellens online-plats", med hjälp av information från ett tidigare intrång hos Mercor – ett företag som skapar AI-träningsdata – plus insiderkunskap från en medlems kontraktsarbete med att utvärdera Anthropic-modeller. Så vi pratar inte om en sofistikerad cyberkupp här; vi pratar om att någon provar ett dörrhandtag och finner det olåst.

Säkerhetsforskaren Lukasz Olejnik beskrev misslyckandet som "helt tänkbart" – den typ av sak som cybersäkerhetsindustrin har hanterat de senaste 20 åren. Anthropic, som kunde logga och spåra modellanvändning, övervakade tydligen inte tillräckligt noga för att märka de objudna gästerna. Med tanke på hur farlig företaget påstår att Mythos är, skulle man tro att de åtminstone skulle kontrollera gästlistan.

Enligt Bloomberg använde gruppen inte Mythos för cybersäkerhetsuppgifter – dels för att de bara ville leka runt, och dels för att det kunde ha varnat Anthropic. Om Anthropics budskap ska tas på allvar är det en tursam paus. Företaget har framställt Mythos som en "vändpunkt för säkerhet", och hävdar att det hittade sårbarheter i "alla större operativsystem och webbläsare", och har delat ut åtkomst till regeringar och finansinstitut världen över. NSA ska ha tillgång, medan CISA hittills har lämnats utanför.

"Anthropic påstår sig vara i absolut framkant av alla dessa teknologier, men positionerar sig också som den ansvariga aktören i allt detta," sa Pia Hüsch, forskare vid Royal United Services Institute (RUSI). Hon sammanfattade hela episoden med ett ord: förödmjukelse. "Att detta nu har nåtts genom obehöriga medel så snabbt, och genom ett så osofistikerat försök, är verkligen en förödmjukelse för dem."

Detta är inte ens den första säkerhetsmissen för Mythos. Modellens existens avslöjades av misstag genom en "osäkrad dataskatt" på Anthropics egen webbplats före lanseringen. Nu har den nåtts via en sårbarhet som vilken säkerhetspraktikant som helst kunde ha förutspått. Perfektion kan vara omöjligt, men för ett företag som har utsett sig självt till förtrupp för AI-säkerhet är detta mindre en snubbling och mer en ansiktslandning.

Anthropics supersäkra AI-modell hackas genom gissningslek

Nyheter i din inkorg.