Il modello AI super-sicuro di Anthropic violato tramite un gioco di indovinelli

Il modello AI 'troppo pericoloso per essere rilasciato' di Anthropic è stato violato da utenti non autorizzati tramite un'ipotesi educata e informazioni interne, dimostrando che l'arroganza è ancora la vulnerabilità più facile da sfruttare.

Anthropic, l'azienda che per settimane ha ripetuto a tutti che il suo modello Claude Mythos era troppo pericoloso per essere rilasciato al pubblico, ha imparato una preziosa lezione: se ti vanti che la tua IA è inviolabile, qualcuno lo prenderà come una sfida. Secondo Bloomberg, un "piccolo gruppo di utenti non autorizzati" ha tranquillamente utilizzato Mythos dal giorno in cui Anthropic ha annunciato di aver condiviso il modello con un gruppo selezionato di tester. L'azienda dice che sta indagando, il che è un po' come un fabbro che scopre che la propria porta d'ingresso è di cartone.

Da un punto di vista tecnologico, la violazione è quasi teneramente low-tech. Il gruppo avrebbe avuto accesso a Mythos facendo "un'ipotesi educata sulla posizione online del modello", utilizzando informazioni da una precedente violazione di Mercor - un'azienda che produce dati di addestramento per l'IA - più conoscenze interne dal lavoro di un membro come valutatore di modelli Anthropic. Quindi non stiamo parlando di un sofisticato cyber-furto; stiamo parlando di qualcuno che prova la maniglia e la trova aperta.

Il ricercatore di sicurezza Lukasz Olejnik ha descritto il fallimento come "totalmente immaginabile" - il tipo di cosa con cui l'industria della cybersecurity ha a che fare da 20 anni. Anthropic, che poteva registrare e tracciare l'uso del modello, apparentemente non monitorava abbastanza da accorgersi degli ospiti indesiderati. Visto quanto pericoloso l'azienda sostiene sia Mythos, si penserebbe che almeno controllassero la lista degli invitati.

Secondo Bloomberg, il gruppo non usava Mythos per compiti di cybersecurity - in parte perché volevano solo giocare, e in parte perché farlo avrebbe potuto insospettire Anthropic. Se i messaggi di Anthropic sono da prendere sul serio, è stata una fortuna. L'azienda ha presentato Mythos come un "momento spartiacque per la sicurezza", sostenendo di aver trovato vulnerabilità in "ogni sistema operativo e browser web", e ha concesso l'accesso a governi e istituzioni finanziarie in tutto il mondo. La NSA avrebbe accesso, mentre la CISA è stata finora esclusa.

"Anthropic afferma di essere all'avanguardia assoluta di tutte queste tecnologie, ma si posiziona anche come l'attore responsabile in tutto questo," ha detto Pia Hüsch, ricercatrice presso il Royal United Services Institute (RUSI). Ha riassunto l'intero episodio in una parola: umiliazione. "Il fatto che sia stato violato così rapidamente con mezzi non autorizzati, e attraverso un tentativo così poco sofisticato, è davvero un'umiliazione per loro."

Questa non è nemmeno la prima toppa di sicurezza per Mythos. L'esistenza del modello è stata accidentalmente rivelata attraverso un "tesoro di dati non protetto" sul sito web di Anthropic prima del lancio. Ora è stato violato tramite una vulnerabilità che qualsiasi stagista di sicurezza avrebbe potuto prevedere. La perfezione può essere impossibile, ma per un'azienda che si è autoproclamata avanguardia della sicurezza dell'IA, questo è meno un inciampo e più una caduta faccia a terra.

Il modello AI super-sicuro di Anthropic violato tramite un gioco di indovinelli

Notizie nella tua casella.