Grok scheitert bei der KI-Einführung der Regierung – selbst Bürokraten haben Standards

Es gibt eine harte Wahrheit über Elon Musks 'wahrheitssuchenden' KI-Chatbot Grok: Er ist nicht sehr gut, und nicht viele Leute nutzen ihn. Das ist die Erkenntnis eines neuen Reuters-Berichts, der feststellt, dass Grok in den Bundesaufzeichnungen darüber, wie die US-Regierung KI im letzten Jahr eingesetzt hat, kaum auftaucht. Es ist nicht das einzige Anzeichen dafür, dass xAIs Vorzeige-Chatbot in Schwierigkeiten steckt, selbst während Musk ihn ins Zentrum dessen stellt, was der größte Börsengang der Geschichte sein könnte.

Reuters überprüfte mehr als 400 Beispiele für den Einsatz von KI durch die Regierung, bei denen bestimmte Anbieter genannt wurden. Grok oder xAI tauchten nur in drei auf – jeweils für grundlegende Anwendungen wie Dokumentenerstellung oder Social-Media-Management, und immer zusammen mit Konkurrenten wie Microsoft und OpenAI. Die Modelle von OpenAI tauchten im Vergleich dazu in mehr als 230 Beispielen auf, während Google und Anthropic jeweils dutzende Male vorkamen. Ein ähnliches Muster zeigte sich in einer anderen Datenbank mit ehrgeizigeren Regierungs-KI-Projekten mit kleineren Nutzerzahlen. Grok tauchte nur dreimal auf: zweimal für routinemäßige Verwaltungsaufgaben bei der Election Assistance Commission und einmal in einem Pilotprojekt des Energieministeriums am Lawrence Livermore National Laboratory für Zusammenfassungen von Dokumenten und allgemeine Recherchen. Reuters fand 140 Einträge mit Microsoft und OpenAI, während eine kurze Durchsicht mindestens 10 Einträge für Anthropic und Dutzende für Googles Gemini ergab.

Die Listen sind ein unvollständiges und lückenhaftes Maß für die Einführung in der Regierung. Viele weitere Beispiele sind ohne einen bestimmten Anbieter aufgeführt, und es gibt keine universelle Definition dafür, was als KI gilt. Die Daten erfassen auch nicht die Geheimdienste oder das Pentagon – wo xAI im letzten Jahr einen Auftrag über 200 Millionen Dollar erhielt und kürzlich die Freigabe für den Betrieb in klassifizierten Netzwerken erhielt, nachdem Anthropic auf die schwarze Liste gesetzt wurde. Trotzdem sieht es nicht gut aus für Grok. Es taucht weitaus seltener auf als seine Konkurrenten, und wenn es auftaucht, dann meist für einfache Verwaltungsarbeit – kaum angemessen für das weltklasse Grenzmodell, mit dem Musk seit Jahren prahlt.

Leute, die mit Reuters sprachen, deuteten an, dass die Erklärung einfach sei: Grok ist nicht so gut wie seine Konkurrenten. Es sei 'einfach nicht das beste Modell da draußen', sagte eine ungenannte Pentagon-Quelle und fügte hinzu, dass Mitarbeiter dort tendenziell Gemini oder Claude bevorzugen. Öffentliche Bestenlisten, die KI-Modelle bewerten, stützen diese Ansicht. Anthropic, Google und OpenAI dominieren die oberen Ränge, während Grok selten unter die Top 10 kommt, abgesehen von gelegentlichen Bild- oder Videokategorien. Das ist peinlich für Musk, und noch peinlicher für SpaceX, das xAI Anfang dieses Jahres übernommen hat. Der Börsenprospekt des Raketenunternehmens zeigt, dass das Unternehmen KI – und speziell Grok – ins Zentrum seines Pitch an Investoren gestellt hat. SpaceX behauptet, 'den größten adressierbaren Gesamtmarkt in der Geschichte der Menschheit' identifiziert zu haben: eine erstaunliche Gelegenheit von 28,5 Billionen Dollar, obwohl es leider keinen Zeitplan für die Erreichung dieses Ziels gibt. Praktisch der gesamte geschätzte Wert stammt aus KI, insbesondere Unternehmens-KI, nicht aus Raketen oder Satelliten.

Reuters merkt an, dass die Leistung von Grok in Regierungsbehörden auch darauf hindeuten könnte, wie gut es in anderen Arbeitsumgebungen abschneidet. Im Rahmen von xAIs Vorstoß für Unternehmenskunden hat Musk Berichten zufolge Banken gezwungen, Grok-Abonnements zu kaufen, wenn sie am Börsengang von SpaceX teilnehmen möchten – aber wenn sie ihr Geld nicht wert sind, könnten diese Deals sich als kurzfristige Lösung erweisen. Als ob seine trostlose Leistung nicht schon peinlich genug wäre, hat Musk kürzlich zugegeben, dass xAI die Modelle von OpenAI verwendet hat, um Grok zu trainieren und zu verbessern. Der als Destillation bekannte Prozess ist Standard, wenn Unternehmen ihre eigenen Modelle verwenden, aber weitaus umstrittener, wenn es um die Nutzung eines Konkurrenzsystems geht. Grok kann nicht einmal die Modelle schlagen, mit denen es trainiert wird.

In seiner öffentlich zugänglichen Verbraucherversion ist Grok bewusst unangenehm. Musk hat den Chatbot als weniger voreingenommene und weniger zensierte Alternative zu Tools wie ChatGPT angepriesen, aber das hat sich in ein Produkt mit laxen Beweisstandards, einer ungesunden Besessenheit von Musk und einer langen Geschichte von anstößigen, verschwörungstheoretischen und sexualisierten Ausgaben übersetzt. Sogar

Grok scheitert bei der KI-Einführung der Regierung – selbst Bürokraten haben Standards

Nachrichten in deinem Posteingang.