In februari pakte deze verslaggever een flyer op tijdens een anti-AI-mars in Londen. Er stond, in wat al dan niet een opzettelijke hommage was aan de onderbroekengnomen van South Park: "Stap 1: Kweek een digitale supergeest. Stap 2: ? Stap 3: ?" Geproduceerd door Pause AI, een activistengroep die het protest mede organiseerde, eindigde de flyer met een smeekbede: "Pauzeer AI tot we weten wat stap 2 in godsnaam is."

De verwijzing, voor de niet-ingewijden, is naar de South Park-aflevering uit 1998 waarin Kenny, Kyle, Cartman en Stan gnomen ontdekken wiens bedrijfsplan is: "Fase 1: Verzamel onderbroeken. Fase 2: ? Fase 3: Winst." De meme wordt sindsdien gebruikt om alles te satiriseren, van startupstrategieën tot Elon Musks financieringsplan voor de Marsmissie. Op dit moment vat het de staat van AI perfect samen: Bedrijven hebben de technologie gebouwd (Stap 1) en transformatie beloofd (Stap 3). Hoe ze daar komen blijft een groot vraagteken.

Pause AI gelooft dat Stap 2 regelgeving moet omvatten, hoewel wat dat precies inhoudt en wie het handhaaft, ter discussie staat. AI-voorstanders zijn er daarentegen van overtuigd dat Stap 3 verlossing is en slaan het middelste deel vaak over. OpenAI's hoofdwetenschapper Jakub Pachocki beschreef AI tegenover mij als een "economisch transformerende technologie", met de zonnige hoogvlakten blijkbaar net over de horizon. Maar iedereen neemt een andere route, en het is gissen wie het zal halen.

Voor elke grootse bewering over de toekomst is er een nuchtere realiteitscheck. Neem twee recente onderzoeken. Een van Anthropic voorspelde welke banen LLM's het meest zullen beïnvloeden - managers, architecten en mediatypes moeten zich schrap zetten; hoveniers, bouwvakkers en horecapersoneel minder. Maar deze voorspellingen zijn eigenlijk slechts gissingen op basis van waar LLM's goed in lijken te zijn, niet hoe ze daadwerkelijk presteren op de werkvloer.

Een ander onderzoek van februari door onderzoekers van Mercor, een AI-wervingsstartup, testte verschillende AI-agenten aangedreven door topmodellen van OpenAI, Anthropic en Google DeepMind op 490 werktaken die routinematig door menselijke bankiers, consultants en advocaten worden gedaan. Elke agent slaagde er niet in de meeste taken te voltooien.

Waarom zulke grote meningsverschillen? Om te beginnen, kijk wie de beweringen doet en waarom - Anthropic heeft er belang bij. De meeste mensen die ons vertellen dat er iets groots staat te gebeuren, baseren dat op hoe snel AI-codeertools verbeteren. Maar niet alle taken kunnen met coderen worden opgelost. Andere onderzoeken vinden dat LLM's slecht zijn in strategische oordeelsvorming.

Bovendien worden tools niet in schone kamers gedropt. Ze moeten werken in plaatsen die besmet zijn met mensen en bestaande workflows, en soms maakt het toevoegen van AI de zaken erger. Ja, misschien moeten die workflows worden afgebroken en opnieuw worden ingericht rond de nieuwe technologie, maar dat kost tijd en lef.

Dat grote gat? Het zit precies waar Stap 2 zou moeten zijn. Het gebrek aan overeenstemming over wat er gaat gebeuren en hoe, creëert een informatievacuüm dat wordt opgevuld door de laatste wilde bewering van de week, bewijs of niet. We zijn zo losgeslagen van enig echt begrip dat een enkele social media-post markten kan doen schudden.

We hebben minder gissingen en meer bewijs nodig. Dat vereist transparantie van modelbouwers, coördinatie tussen onderzoekers en bedrijven, en nieuwe manieren om deze technologie in de echte wereld te evalueren. De tech-industrie - en daarmee de wereldeconomie - rust op de belofte dat AI transformerend zal zijn. Maar dat is nog geen zekere weddenschap. De volgende keer dat je gedurfde beweringen hoort, onthoud dan: de meeste bedrijven zijn nog steeds aan het uitvogelen wat ze met hun onderbroeken moeten doen.