A febbraio, questa giornalista ha raccolto un volantino a una marcia anti-IA a Londra. Diceva, in quello che potrebbe o non potrebbe essere stato un omaggio deliberato ai gnomi delle mutande di South Park: "Fase 1: Creare una super mente digitale. Fase 2: ? Fase 3: ?". Prodotto da Pause AI, un gruppo di attivisti che ha co-organizzato la protesta, il volantino si concludeva con un appello: "Fermate l'IA finché non capiamo che diavolo è la Fase 2."
Il riferimento, per i non iniziati, è all'episodio del 1998 di South Park in cui Kenny, Kyle, Cartman e Stan scoprono gnomi il cui piano aziendale è "Fase 1: Raccogliere mutande. Fase 2: ? Fase 3: Profitto". Il meme è stato poi usato per satireggiare qualsiasi cosa, dalle strategie delle startup al piano di finanziamento della missione su Marte di Elon Musk. In questo momento, descrive perfettamente lo stato dell'IA: le aziende hanno costruito la tecnologia (Fase 1) e promesso trasformazione (Fase 3). Come arrivarci rimane un enorme punto interrogativo.
Pause AI crede che la Fase 2 debba coinvolgere la regolamentazione, anche se esattamente come dovrebbe essere e chi la applica è oggetto di dibattito. I sostenitori dell'IA, nel frattempo, sono convinti che la Fase 3 sia la salvezza e tendono a saltare del tutto la parte centrale. Il capo scienziato di OpenAI, Jakub Pachocki, mi ha descritto l'IA come una "tecnologia economicamente trasformativa", con le soleggiate alture apparentemente appena oltre l'orizzonte. Ma ognuno sta prendendo una strada diversa, e chi ce la farà è un'incognita.
Per ogni grande affermazione sul futuro, c'è un controllo di realtà che fa riflettere. Consideriamo due studi recenti. Uno di Anthropic ha previsto quali lavori saranno più colpiti dagli LLM: manager, architetti e tipi da media dovrebbero prepararsi al cambiamento; giardinieri, operai edili e personale dell'ospitalità, non tanto. Ma queste previsioni sono in realtà solo supposizioni basate su ciò in cui gli LLM sembrano bravi, non su come si comportano effettivamente sul posto di lavoro.
Un altro studio di febbraio condotto da ricercatori di Mercor, una startup di assunzioni nell'IA, ha testato diversi agenti IA alimentati da modelli di punta di OpenAI, Anthropic e Google DeepMind su 480 compiti lavorativi svolti regolarmente da banchieri, consulenti e avvocati umani. Ogni agente non è riuscito a completare la maggior parte dei suoi compiti.
Perché un tale disaccordo? Per cominciare, considerate chi fa le affermazioni e perché: Anthropic ha interessi in gioco. La maggior parte delle persone che ci dicono che sta per succedere qualcosa di grosso si basa su quanto velocemente migliorano gli strumenti di codifica dell'IA. Ma non tutti i compiti possono essere risolti con la codifica. Altri studi scoprono che gli LLM sono scadenti nei giudizi strategici.
Inoltre, gli strumenti non vengono calati in camere bianche. Devono funzionare in luoghi contaminati da persone e flussi di lavoro esistenti, e a volte aggiungere l'IA peggiora le cose. Certo, forse quei flussi di lavoro devono essere strappati e rimodellati attorno alla nuova tecnologia, ma ci vuole tempo e fegato.
Quel grande buco? È proprio dove dovrebbe essere la Fase 2. La mancanza di accordo su cosa sta per succedere e come crea un vuoto informativo riempito dall'ultima affermazione folle della settimana, al diavolo le prove. Siamo così sganciati da qualsiasi comprensione reale che un singolo post sui social può far tremare i mercati.
Abbiamo bisogno di meno supposizioni e più prove. Ciò richiede trasparenza da parte dei creatori di modelli, coordinamento tra ricercatori e aziende, e nuovi modi per valutare questa tecnologia nel mondo reale. L'industria tech - e con essa l'economia mondiale - si basa sulla promessa che l'IA sarà trasformativa. Ma non è ancora una scommessa sicura. La prossima volta che sentite affermazioni audaci, ricordate: la maggior parte delle aziende sta ancora cercando di capire cosa fare con le proprie mutande.