Superbezpieczny model AI Anthropica zhakowany przez grę w zgadywanie

Anthropic, który chwalił się niebezpiecznym i nie do zhakowania modelem AI, został zhakowany przez zgadywanie i wewnętrzne informacje, co udowadnia, że pycha wciąż jest najłatwiejszą do wykorzystania podatnością.

Anthropic, firma która przez tygodnie przekonywała wszystkich, że jej model Claude Mythos jest zbyt niebezpieczny, by udostępnić go publicznie, właśnie dostała nauczkę: jeśli chwalisz się, że twoje AI jest nie do zhakowania, ktoś uzna to za wyzwanie. Według Bloomberga, „mała grupa nieautoryzowanych użytkowników” cieszyła się dostępem do Mythosa od dnia, w którym Anthropic ogłosił udostępnienie modelu wybranej grupie testerów. Firma twierdzi, że prowadzi dochodzenie, co jest trochę jak odkrycie przez ślusarza, że jego własne drzwi wejściowe są z tektury.

Z technologicznego punktu widzenia włamanie jest wręcz urocze w swojej prostocie. Grupa rzekomo uzyskała dostęp do Mythosa poprzez „świadome odgadnięcie lokalizacji modelu w sieci”, korzystając z informacji z wcześniejszego wycieku w Mercor – firmie zajmującej się danymi treningowymi dla AI – oraz wiedzy wewnętrznej jednego z członków, który pracował jako kontraktor przy ocenie modeli Anthropica. Nie mówimy więc o wyrafinowanym cybernapadzie; mówimy o kimś, kto spróbował klamki i znalazł drzwi otwarte.

Ekspert ds. bezpieczeństwa Łukasz Olejnik opisał tę porażkę jako „całkowicie wyobrażalną” – coś, z czym branża cyberbezpieczeństwa zmaga się od 20 lat. Anthropic, który mógł logować i śledzić użycie modelu, najwyraźniej nie monitorował go wystarczająco uważnie, by zauważyć nieproszonych gości. Biorąc pod uwagę, jak niebezpieczny według firmy jest Mythos, można by pomyśleć, że przynajmniej sprawdzą listę gości.

Według Bloomberga, grupa nie używała Mythosa do zadań związanych z cyberbezpieczeństwem – częściowo dlatego, że chcieli się po prostu pobawić, a częściowo dlatego, że mogłoby to naprowadzić Anthropica na ich trop. Jeśli wierzyć zapewnieniom Anthropica, to szczęśliwy zbieg okoliczności. Firma przedstawiła Mythosa jako „przełomowy moment dla bezpieczeństwa”, twierdząc, że znalazł luki w „każdym głównym systemie operacyjnym i przeglądarce internetowej”, i udostępnia go rządom oraz instytucjom finansowym na całym świecie. NSA rzekomo ma dostęp, choć CISA na razie została pominięta.

„Anthropic twierdzi, że jest na absolutnym czele tych technologii, ale jednocześnie pozycjonuje się jako odpowiedzialny gracz” – powiedziała Pia Hüsch, pracownica naukowa Royal United Services Institute (RUSI). Podsumowała całą historię jednym słowem: upokorzenie. „Fakt, że udało się uzyskać dostęp w tak szybki i nieskomplikowany sposób, to dla nich prawdziwe upokorzenie.”

To nie jest nawet pierwsza wpadka bezpieczeństwa Mythosa. Istnienie modelu zostało przypadkowo ujawnione poprzez „niezabezpieczone zbiory danych” na stronie Anthropica jeszcze przed premierą. Teraz uzyskano do niego dostęp przez podatność, którą każdy stażysta ds. bezpieczeństwa mógł przewidzieć. Perfekcja może być niemożliwa, ale dla firmy, która ogłosiła się strażnikiem bezpieczeństwa AI, to nie tyle potknięcie, co upadek na twarz.

Superbezpieczny model AI Anthropica zhakowany przez grę w zgadywanie

Wiadomości w Twojej skrzynce.