Grok Flopt in Overheids-AI-Adoptie, Bewijst Zelfs Bureaucraten Hebben Normen

Er is een harde waarheid over Elon Musks 'waarheidzoekende' AI-chatbot Grok: hij is niet erg goed en niet veel mensen gebruiken hem. Dat is de conclusie van een nieuw Reuters-rapport, waaruit blijkt dat Grok nauwelijks voorkomt in federale documenten over hoe de Amerikaanse overheid vorig jaar AI gebruikte. Het is niet het enige teken dat xAI's kenmerkende chatbot in de problemen zit, zelfs terwijl Musk het centraal stelt in wat de grootste beursgang in de geschiedenis zou kunnen worden.

Reuters bekeek meer dan 400 voorbeelden van overheids-AI-gebruik waar specifieke leveranciers werden genoemd. Grok of xAI verscheen in slechts drie – elk voor basistoepassingen zoals documentopstellen of socialemediabeheer, en altijd naast concurrenten als Microsoft en OpenAI. OpenAI's modellen verschenen daarentegen in meer dan 230 voorbeelden, terwijl Google en Anthropic elk tientallen keren voorkwamen. Een vergelijkbaar patroon deed zich voor in een andere database met ambitieuzere overheids-AI-projecten met kleinere gebruikersaantallen. Grok verscheen slechts drie keer: twee keer voor routinematige administratieve taken bij de Election Assistance Commission, en één keer in een pilot van het Department of Energy bij Lawrence Livermore National Laboratory voor documentsamenvattingen en algemeen onderzoek. Reuters vond 140 vermeldingen met Microsoft en OpenAI, terwijl een korte controle ten minste 10 vermeldingen voor Anthropic en tientallen voor Google's Gemini vond.

De lijsten zijn een onvolledige en gebrekkige maatstaf voor overheidsadoptie. Veel meer voorbeelden worden vermeld zonder specifieke leverancier, en er is geen universele definitie van wat als AI telt. De gegevens omvatten ook geen inlichtingendiensten of het Pentagon – waar xAI vorig jaar een contract van $200 miljoen binnenhaalde en onlangs toestemming kreeg om op geheime netwerken te werken na de blacklisting van Anthropic. Toch ziet het er niet goed uit voor Grok. Het komt veel minder voor dan zijn rivalen, en als het al verschijnt, is het meestal voor basisadministratief werk – nauwelijks passend bij het wereldklasse frontiermodel waar Musk jaren over heeft opgeschept.

Mensen die met Reuters spraken, suggereerden dat de verklaring eenvoudig was: Grok is niet zo goed als zijn rivalen. Het is 'gewoon niet het beste model dat er is', zei een anonieme Pentagon-bron, eraan toevoegend dat medewerkers daar de voorkeur geven aan Gemini of Claude. Openbare ranglijsten van AI-modellen ondersteunen die visie. Anthropic, Google en OpenAI domineren de top, terwijl Grok zelden de top 10 haalt, behalve af en toe in een beeld- of videocategorie. Dat is ongemakkelijk voor Musk, en nog ongemakkelijker voor SpaceX, dat xAI eerder dit jaar overnam. De beursgangsaanvraag van het raketbedrijf laat zien dat het bedrijf AI – en Grok in het bijzonder – centraal heeft gesteld in zijn pitch aan investeerders. SpaceX beweert 'de grootste uitvoerbare totale adresseerbare markt in de menselijke geschiedenis' te hebben geïdentificeerd: een verbazingwekkende kans van $28,5 biljoen, maar helaas zonder tijdschema om daar te komen. Vrijwel al deze geschatte waarde komt van AI, met name enterprise AI, niet van raketten of satellieten.

Reuters merkt op dat Grok's prestaties bij overheidsinstanties kunnen wijzen op hoe het op andere werkplekken presteert. Als onderdeel van xAI's push voor enterprise-klanten heeft Musk naar verluidt banken gedwongen Grok-abonnementen te kopen als ze willen deelnemen aan SpaceX's beursgang – maar als ze geen waar voor hun geld krijgen, kunnen deze deals een kortetermijnoplossing blijken. Alsof zijn trieste prestatie nog niet ongemakkelijk genoeg was, gaf Musk onlangs toe dat xAI OpenAI's modellen heeft gebruikt om Grok te helpen trainen en verbeteren. Het proces, bekend als distillatie, is standaard wanneer bedrijven hun eigen modellen gebruiken, maar veel controversiëler wanneer het gaat om het gebruik van een rivaliserend systeem. Grok kan niet eens de modellen verslaan waarop het traint.

In zijn publiek toegankelijke consumentenversie is Grok opzettelijk onaangenaam. Musk heeft de chatbot gebrandmerkt als een minder bevooroordeeld en minder gecensureerd alternatief voor tools als ChatGPT, maar dat heeft zich vertaald in een product met losse bewijsnormen, een ongezonde obsessie met Musk en een lange staat van dienst van aanstootgevende, samenzweerderige en seksualiserende outputs. Zelfs

Grok Flopt in Overheids-AI-Adoptie, Bewijst Zelfs Bureaucraten Hebben Normen

Nieuws in je inbox.