Anthropics superveilige AI-model gehackt via raadspelletje

Anthropics 'te gevaarlijk om vrij te geven' AI-model werd door onbevoegde gebruikers benaderd via een weloverwogen gok en insiderinformatie, wat bewijst dat hoogmoed nog steeds de makkelijkste kwetsbaarheid is om uit te buiten.

Anthropic, het bedrijf dat wekenlang verkondigde dat zijn Claude Mythos-model te gevaarlijk was voor publieke release, heeft een waardevolle les geleerd: als je opschept dat je AI onhackbaar is, neemt iemand dat als een uitdaging. Volgens Bloomberg heeft een 'kleine groep onbevoegde gebruikers' stilletjes van Mythos genoten sinds de dag dat Anthropic aankondigde het model te delen met een selecte groep testers. Het bedrijf zegt dat het een onderzoek instelt, wat een beetje is alsof een slotenmaker ontdekt dat zijn eigen voordeur van karton is.

Vanuit technologisch oogpunt is de inbraak bijna vertederend laagtechnologisch. De groep zou Mythos hebben benaderd door 'een weloverwogen gok te doen naar de online locatie van het model', gebruikmakend van informatie uit een eerdere inbreuk bij Mercor - een bedrijf dat AI-trainingsdata maakt - plus insiderkennis van het contractwerk van een lid om Anthropic-modellen te evalueren. We hebben het dus niet over een sophisticated cyberoverval; we hebben het over iemand die een deurknop probeert en merkt dat hij niet op slot zit.

Beveiligingsonderzoeker Lukasz Olejnik omschreef de mislukking als 'volledig denkbaar' - het soort dingen waar de cybersecurity-industrie de afgelopen 20 jaar mee te maken heeft gehad. Anthropic, dat modelgebruik kon loggen en volgen, hield blijkbaar niet goed genoeg in de gaten om de ongenode gasten op te merken. Gezien hoe gevaarlijk het bedrijf beweert dat Mythos is, zou je denken dat ze op zijn minst de gastenlijst controleerden.

Volgens Bloomberg gebruikte de groep Mythos niet voor cybersecuritytaken - deels omdat ze gewoon wilden rotzooien, en deels omdat dat Anthropic mogelijk zou hebben gealarmeerd. Als we Anthropics boodschap serieus nemen, is dat een geluk bij een ongeluk. Het bedrijf heeft Mythos omlijst als een 'waterscheidingsmoment voor beveiliging', beweert dat het kwetsbaarheden vond in 'elk groot besturingssysteem en elke webbrowser', en deelt toegang uit aan overheden en financiële instellingen wereldwijd. De NSA heeft naar verluidt toegang, hoewel CISA tot nu toe buiten spel is gebleven.

'Anthropic beweert aan de absolute voorhoede van al deze technologieën te staan, maar positioneert zichzelf ook als de verantwoordelijke actor in dit alles,' zei Pia Hüsch, onderzoeker bij het Royal United Services Institute (RUSI). Ze vatte de hele episode samen in één woord: vernedering. 'Het feit dat dit nu zo snel via onbevoegde middelen is benaderd, en via zo'n ongesofisticeerde poging, is echt een vernedering voor hen.'

Dit is niet eens de eerste beveiligingsblunder voor Mythos. Het bestaan van het model werd per ongeluk onthuld via een 'onbeveiligde databerg' op Anthropics eigen website vóór de lancering. Nu is het benaderd via een kwetsbaarheid die elke security-stagiair had kunnen voorspellen. Perfectie mag dan onmogelijk zijn, maar voor een bedrijf dat zichzelf tot de voorhoede van AI-veiligheid heeft gebombardeerd, is dit minder een struikeling en meer een smak.

Anthropics superveilige AI-model gehackt via raadspelletje

Nieuws in je inbox.