El modelo de IA 'super seguro' de Anthropic es hackeado mediante un juego de adivinanzas

Anthropic, que se jactaba de la seguridad de su modelo Mythos, fue hackeado por un grupo que adivinó su ubicación en línea, demostrando que la arrogancia sigue siendo la vulnerabilidad más fácil de explotar.

Anthropic, la empresa que pasó semanas diciéndole a todo el mundo que su modelo Claude Mythos era demasiado peligroso para su lanzamiento público, ha aprendido una valiosa lección: si te jactas de que tu IA es imposible de hackear, alguien lo tomará como un desafío. Según Bloomberg, un 'pequeño grupo de usuarios no autorizados' ha estado disfrutando de Mythos en silencio desde el día en que Anthropic anunció que compartía el modelo con un grupo selecto de evaluadores. La empresa dice que está investigando, lo que es un poco como si un cerrajero descubre que su propia puerta principal está hecha de cartón.

Desde un punto de vista tecnológico, la brecha es casi entrañablemente de baja tecnología. El grupo supuestamente accedió a Mythos haciendo 'una suposición fundamentada sobre la ubicación en línea del modelo', utilizando información de una brecha anterior de Mercor —una empresa que fabrica datos de entrenamiento de IA— más conocimiento interno del trabajo por contrato de un miembro evaluando modelos de Anthropic. Así que no estamos hablando de un ciberatraco sofisticado; estamos hablando de alguien que prueba una manija y la encuentra sin llave.

El investigador de seguridad Lukasz Olejnik describió el fallo como 'totalmente imaginable' —el tipo de cosa con la que la industria de la ciberseguridad ha estado lidiando durante los últimos 20 años. Anthropic, que podría registrar y rastrear el uso del modelo, aparentemente no estaba monitoreando lo suficiente como para notar a los invitados no deseados. Dado lo peligroso que la empresa afirma que es Mythos, uno pensaría que al menos revisarían la lista de invitados.

Según el relato de Bloomberg, el grupo no estaba usando Mythos para tareas de ciberseguridad —en parte porque solo querían jugar, y en parte porque hacerlo podría haber alertado a Anthropic. Si los mensajes de Anthropic se toman en serio, eso es un golpe de suerte. La empresa ha presentado a Mythos como un 'momento decisivo para la seguridad', afirmando que encontró vulnerabilidades en 'todos los sistemas operativos y navegadores web importantes', y ha estado distribuyendo acceso a gobiernos e instituciones financieras en todo el mundo. Se dice que la NSA tiene acceso, aunque la CISA ha quedado fuera hasta ahora.

'Anthropic afirma estar en la vanguardia absoluta de todas estas tecnologías, pero también se posiciona como el actor responsable en todo esto', dijo Pia Hüsch, investigadora del Royal United Services Institute (RUSI). Resumió todo el episodio en una palabra: humillación. 'El hecho de que esto haya sido accedido por medios no autorizados tan rápidamente, y a través de un intento tan poco sofisticado, es realmente una humillación para ellos'.

Esta ni siquiera es la primera piedra en el camino para Mythos. La existencia del modelo fue revelada accidentalmente a través de un 'tesoro de datos no asegurado' en el propio sitio web de Anthropic antes del lanzamiento. Ahora ha sido accedido a través de una vulnerabilidad que cualquier pasante de seguridad podría haber predicho. La perfección puede ser imposible, pero para una empresa que se ha ungido a sí misma como la vanguardia de la seguridad de la IA, esto es menos un tropiezo y más una caída de bruces.

El modelo de IA 'super seguro' de Anthropic es hackeado mediante un juego de adivinanzas

Noticias en tu bandeja.