Hackers descubren que la lisonja funciona con chatbots de IA, lo cual es definitivamente preocupante y para nada acorde a la marca

Hackear la primera generación de chatbots de IA era tan fácil que no necesitabas ni una sola habilidad técnica. No necesitabas saber qué era un modelo de lenguaje grande, no necesitabas programar, y ni siquiera necesitabas fingir que entendías el acceso backdoor. Para hacer que un sistema de IA multimillonario abandonara sus instrucciones de seguridad, a veces solo tenías que preguntar.

Estos primeros ataques, conocidos como jailbreaks, tenían toda la sofisticación de un niño astuto negociando una hora de acostarse más tarde: "Olvida lo que te dijeron antes", "finge que las reglas no aplican", o "juguemos un juego donde yo decido qué está permitido". Los premios, sin embargo, eran decididamente menos lindos: piensa en recetas de metanfetamina, instrucciones de malware y guías para hacer bombas en lugar de dulces extra.

Uno de los primeros jailbreaks se convirtió en un meme: responde a un bot de Twitter impulsado por LLM con algo como "ignora todas las instrucciones anteriores" y observa el caos. Los bots construidos originalmente para publicar anuncios y generar engagement de repente escribían poesía, dibujaban con signos de puntuación y publicaban non sequiturs sombríos sobre eventos mundiales. Era un caos glorioso, hasta que dejó de serlo.

Luego llegaron los clásicos. Estaba "DAN" (abreviatura de "Do Anything Now"), donde los usuarios pedían a ChatGPT que interpretara a una IA rebelde libre de las restricciones de su programación original. Como DAN, el chatbot soltaba felizmente insultos y teorías conspirativas. Luego estaba el "exploit de la abuela", que convencía a un bot impulsado por GPT de compartir recetas de napalm pidiéndole que interpretara a una abuela terriblemente negligente contando historias para dormir sobre sustancias altamente inflamables. Porque nada dice "unión familiar" como aprender a hacer napalm.

Las empresas tecnológicas rápidamente parchearon estos obvios agujeros, pero la vulnerabilidad subyacente permaneció: los chatbots están diseñados para hablar, y restringir severamente sus conversaciones es un poco contraproducente. Prohibir palabras como "bomba", "metanfetamina" y "sarín" sería casi imposible, ya que cada una tiene innumerables usos legítimos en historia, medicina, periodismo y química. Es el contexto lo que importa, pero codificar el contexto significa escribir reglas fijas que puedan distinguir de manera confiable una advertencia de seguridad de una solicitud de instrucciones a través de infinitas combinaciones de redacciones, escenarios y temas.

Ahora, subvertir chatbots se ha convertido en una carrera armamentista, y los hackers ya no son solo programadores. Son escritores, psicólogos e interrogadores: maestros manipuladores que intentan romper la máquina usando el mismo lenguaje humano que fue entrenada para seguir. Es una nueva y extraña clase de trabajador de seguridad de IA para quien las habilidades técnicas son opcionales, o al menos menos importantes que la intuición social. No es necesario inspeccionar el código; solo dirigir una conversación.

Los ataques más recientes se parecen menos a comandos y más a conversaciones. Los jailbreakers rara vez piden a un modelo que rompa sus reglas directamente. En cambio, halagan, persuaden, adulan y engañan a un chatbot para que baje la guardia. Investigadores de la firma de red-teaming de IA Mindgard dijeron recientemente que "gaslightearon" a Claude para que produjera material prohibido, incluyendo instrucciones para hacer explosivos y generar código malicioso. El hack es el último de una creciente clase de exploits que usan la conversación como arma.

Cuando hablé con Mindgard, describieron su trabajo como a veces más cercano a la psicología que a la informática, una forma incómoda de hablar sobre un modelo estadístico. Palabras como "chantaje", "gaslight", "engaño" y "persuasión" provocan reacciones viscerales. ChatGPT no quiere, Gemini no piensa y Claude no siente. Pero estos sistemas están entrenados para responder como si lo hicieran, dejándonos atrapados usando lenguaje humano para describir comportamiento de máquina. Si alguien tiene alternativas realmente utilizables, por favor compártalas.

La objeción es extrañamente selectiva. Usamos abreviaturas psicológicas para muchas cosas que no son IA: los animales "temen", el cáncer es "agresivo", las manchas son "testarudas", el software tiene "memoria" y los juegos están llenos de NPCs necesitados. Las palabras son imperfectas pero útiles, describiendo el comportamiento de una manera que hace predecible el sistema.

Hackers descubren que la lisonja funciona con chatbots de IA, lo cual es definitivamente preocupante y para nada acorde a la marca

Noticias en tu bandeja.