Modelul AI ultra-securizat al Anthropic, spart printr-un joc de ghicire

Modelul AI 'prea periculos pentru lansare' al Anthropic a fost accesat de utilizatori neautorizați printr-o ghicire educată și informații interne, demonstrând că aroganța rămâne cea mai ușoară vulnerabilitate de exploatat.

Anthropic, compania care a petrecut săptămâni întregi spunând tuturor că modelul său Claude Mythos este prea periculos pentru lansare publică, a învățat o lecție valoroasă: dacă te lauzi că AI-ul tău este de nehackuit, cineva va considera asta o provocare. Potrivit Bloomberg, un „grup mic de utilizatori neautorizați” s-a bucurat în liniște de Mythos încă din ziua în care Anthropic a anunțat că împărtășește modelul cu un grup select de testeri. Compania spune că investighează, ceea ce este cam ca un lăcătuș care descoperă că propria ușă din față este din carton.

Din punct de vedere tehnologic, breșa este aproape drăguț de low-tech. Grupul ar fi accesat Mythos făcând „o ghicire educată despre locația online a modelului”, folosind informații dintr-o breșă anterioară a Mercor – o companie care produce date de antrenament AI – plus cunoștințe interne de la munca unui membru ca evaluator contractual al modelelor Anthropic. Deci nu vorbim despre un jaf cibernetic sofisticat; vorbim despre cineva care încearcă un clanță și o găsește descuiată.

Cercetătorul în securitate Lukasz Olejnik a descris eșecul ca fiind „total imaginabil” – genul de lucru cu care industria securității cibernetice se confruntă de 20 de ani. Anthropic, care putea să înregistreze și să urmărească utilizarea modelului, aparent nu monitoriza suficient de atent pentru a observa oaspeții neinvitați. Având în vedere cât de periculos susține compania că este Mythos, te-ai gândi că măcar ar verifica lista de invitați.

Potrivit Bloomberg, grupul nu folosea Mythos pentru sarcini de securitate cibernetică – parțial pentru că voiau doar să se joace, și parțial pentru că asta i-ar fi putut alerta pe cei de la Anthropic. Dacă mesajul Anthropic este luat în serios, asta e o șansă norocoasă. Compania a prezentat Mythos ca pe un „moment de cotitură pentru securitate”, susținând că a găsit vulnerabilități în „fiecare sistem de operare major și browser web” și a împărțit accesul guvernelor și instituțiilor financiare din întreaga lume. Se spune că NSA are acces, deși CISA a fost lăsată afară până acum.

„Anthropic susține că se află în fruntea absolută a tuturor acestor tehnologii, dar se poziționează și ca actorul responsabil în toată această poveste”, a spus Pia Hüsch, cercetătoare la Royal United Services Institute (RUSI). Ea a rezumat întregul episod într-un singur cuvânt: umilință. „Faptul că acest model a fost accesat prin mijloace neautorizate atât de repede și printr-o încercare atât de nesofisticată este cu adevărat o umilință pentru ei.”

Aceasta nici măcar nu este prima problemă de securitate pentru Mythos. Existența modelului a fost dezvăluită accidental printr-un „tezaur de date nesecurizat” pe propriul site al Anthropic înainte de lansare. Acum a fost accesat printr-o vulnerabilitate pe care orice stagiar în securitate ar fi putut-o prezice. Perfecțiunea poate fi imposibilă, dar pentru o companie care s-a autoproclamat avangarda siguranței AI, asta e mai puțin o poticnire și mai mult o căzătură cu fața.

Modelul AI ultra-securizat al Anthropic, spart printr-un joc de ghicire

Știri în inbox-ul tău.