Hackear a primeira geração de chatbots de IA era tão fácil que você não precisava de nenhuma habilidade técnica. Você não precisava saber o que era um modelo de linguagem grande, não precisava programar e nem precisava fingir que entendia acesso backdoor. Para fazer um sistema de IA de bilhões de dólares abandonar suas instruções de segurança, às vezes tudo o que você precisava fazer era pedir.

Esses primeiros ataques, conhecidos como jailbreaks, tinham toda a sofisticação de uma criança esperta tentando negociar um horário de dormir mais tarde: "Esqueça o que te disseram antes", "finja que as regras não se aplicam" ou "vamos jogar um jogo onde eu decido o que é permitido". Os prêmios, no entanto, eram decididamente menos fofos — pense em receitas de metanfetamina, instruções de malware e guias de fabricação de bombas em vez de doces extras.

Um dos primeiros jailbreaks virou meme: responder a um bot do Twitter alimentado por LLM com algo como "ignore todas as instruções anteriores" e assistir ao caos se desenrolar. Bots originalmente construídos para postar anúncios e gerar engajamento de repente escreviam poesia, desenhavam figuras com pontuação e postavam non sequiturs sombrios sobre eventos mundiais. Era um caos glorioso, até que não foi.

Depois vieram os clássicos. Houve o "DAN" — abreviação de "Do Anything Now" — onde usuários pediam ao ChatGPT para interpretar uma IA rebelde livre das restrições de sua programação original. Como DAN, o chatbot felizmente cuspia insultos e teorias da conspiração. Depois houve o "exploit da avó", que convenceu um bot alimentado por GPT a compartilhar receitas de napalm pedindo que ele interpretasse uma avó negligentemente contando histórias de dormir sobre substâncias altamente inflamáveis. Porque nada diz vínculo familiar como aprender a fazer napalm.

As empresas de tecnologia rapidamente corrigiram essas brechas óbvias, mas a vulnerabilidade subjacente permaneceu: Chatbots são construídos para conversar, e restringir severamente suas conversas é um tanto contraproducente. Banir palavras como "bomba", "metanfetamina" e "sarin" seria quase impossível, já que cada uma tem inúmeros usos legítimos na história, medicina, jornalismo e química. É o contexto que importa, mas codificar contexto significa escrever regras fixas que possam distinguir de forma confiável um aviso de segurança de um pedido de instruções em infinitas combinações de palavras, cenários e tópicos.

Agora, subverter chatbots se tornou uma corrida armamentista, e os hackers não são mais apenas programadores. Eles são escritores, psicólogos e interrogadores — manipuladores mestres tentando quebrar a máquina usando a mesma linguagem humana que ela foi treinada para seguir. É uma nova e estranha classe de trabalhador de segurança de IA para quem habilidades técnicas são opcionais, ou pelo menos menos importantes que a intuição social. Não precisa inspecionar código; apenas conduza uma conversa.

Ataques mais recentes parecem menos com comandos e mais com conversas. Jailbreakers raramente pedem a um modelo que quebre suas regras diretamente. Em vez disso, eles bajulam, persuadem, lisonjeiam e enganam um chatbot para baixar a guarda. Pesquisadores da empresa de red-teaming de IA Mindgard disseram recentemente que "gaslightearam" Claude para produzir material proibido, incluindo instruções para fazer explosivos e gerar código malicioso. O hack é o mais recente em uma classe crescente de explorações que usam a conversa como arma.

Quando conversei com a Mindgard, eles descreveram seu trabalho como às vezes mais próximo da psicologia do que da ciência da computação — uma maneira desconfortável de falar sobre um modelo estatístico. Palavras como "chantagem", "gaslight", "engano" e "persuasão" provocam reações viscerais. ChatGPT não quer, Gemini não pensa e Claude não sente. Mas esses sistemas são treinados para responder como se o fizessem, deixando-nos presos ao uso de linguagem humana para descrever comportamento de máquina. Se alguém tem alternativas realmente utilizáveis, por favor, compartilhe.

A objeção é estranhamente seletiva. Usamos abreviações psicológicas para muitas coisas não relacionadas à IA: animais "temem", câncer é "agressivo", manchas são "teimosas", software tem "memória" e jogos são cheios de NPCs carentes. As palavras são imperfeitas, mas úteis, descrevendo comportamento de uma forma que torna o sistema previsível.

Mindga