Grok oblewa się w rządowym AI, udowadniając, że nawet biurokraci mają standardy

Jest gorzka prawda o 'prawdomównym' czacie AI Elona Muska, Groku: nie jest zbyt dobry i niewiele osób go używa. To wniosek z nowego raportu Reutersa, który wykazał, że Grok ledwo pojawia się w federalnych rejestrach wykorzystania AI przez rząd USA w zeszłym roku. To nie jedyny znak, że flagowy czat xAI ma kłopoty, nawet gdy Musk stawia go w centrum tego, co może być największym IPO w historii.

Reuters przejrzał ponad 400 przykładów rządowego wykorzystania AI, w których wymieniono konkretnych dostawców. Grok lub xAI pojawiły się tylko w trzech – każdy do podstawowych zastosowań, takich jak tworzenie dokumentów czy zarządzanie mediami społecznościowymi, i zawsze obok konkurentów takich jak Microsoft i OpenAI. Modele OpenAI, dla porównania, pojawiły się w ponad 230 przykładach, podczas gdy Google i Anthropic pojawiły się dziesiątki razy. Podobny wzór pojawił się w innej bazie danych bardziej ambitnych rządowych projektów AI z mniejszą liczbą użytkowników. Grok pojawił się tylko trzy razy: dwa razy do rutynowych zadań administracyjnych w Komisji Pomocy Wyborczej i raz w pilotażu Departamentu Energii w Lawrence Livermore National Laboratory do podsumowań dokumentów i ogólnych badań. Reuters znalazł 140 wpisów dotyczących Microsoftu i OpenAI, podczas gdy krótki przegląd wykazał co najmniej 10 wpisów dla Anthropic i dziesiątki dla Gemini Google.

Listy są niekompletną i wyrywkową miarą rządowej adopcji. Wiele więcej przykładów jest wymienionych bez konkretnego dostawcy i nie ma uniwersalnej definicji tego, co liczy się jako AI. Dane nie obejmują również agencji wywiadowczych ani Pentagonu – gdzie xAI zdobyło w zeszłym roku kontrakt o wartości 200 milionów dolarów i niedawno uzyskało zgodę na działanie w sieciach tajnych po wykluczeniu Anthropic. Mimo to, nie wygląda to dobrze dla Groka. Pojawia się znacznie rzadziej niż jego rywale, a kiedy już się pojawia, to głównie do podstawowej pracy administracyjnej – co ledwo przystoi światowej klasy modelowi granicznemu, którym Musk chwalił się od lat.

Ludzie, którzy rozmawiali z Reutersem, sugerowali, że wyjaśnienie jest proste: Grok nie jest tak dobry jak jego rywale. To 'po prostu nie jest najlepszy model na rynku', powiedziało anonimowe źródło w Pentagonie, dodając, że pracownicy tam wolą Gemini lub Claude. Publiczne rankingi modeli AI potwierdzają ten pogląd. Anthropic, Google i OpenAI dominują w czołówce, podczas gdy Grok rzadko przebija się do pierwszej dziesiątki poza okazjonalną kategorią obrazu lub wideo. To krępujące dla Muska, a jeszcze bardziej krępujące dla SpaceX, które wchłonęło xAI w tym roku. Dokumentacja IPO firmy rakietowej pokazuje, że firma postawiła AI – a konkretnie Groka – w centrum swojej oferty dla inwestorów. SpaceX twierdzi, że zidentyfikowało 'największy osiągalny rynek adresowalny w historii ludzkości': zdumiewającą okazję o wartości 28,5 biliona dolarów, choć niestety nie podaje harmonogramu jej osiągnięcia. Praktycznie cała ta szacowana wartość pochodzi z AI, w szczególności z AI dla przedsiębiorstw, a nie z rakiet czy satelitów.

Reuters zauważa, że wyniki Groka w agencjach rządowych mogą wskazywać, jak radzi sobie w innych miejscach pracy. W ramach nacisku xAI na klientów korporacyjnych, Musk rzekomo zmusza banki do kupowania subskrypcji Groka, jeśli chcą uczestniczyć w IPO SpaceX – ale jeśli nie dostają tego, za co płacą, te umowy mogą okazać się krótkoterminowym rozwiązaniem. Jakby jego marna wydajność nie była wystarczająco krępująca, Musk niedawno przyznał, że xAI używało modeli OpenAI do szkolenia i ulepszania Groka. Proces, znany jako destylacja, jest standardowy, gdy firmy używają własnych modeli, ale znacznie bardziej kontrowersyjny, gdy dotyczy systemu rywala. Grok nie może nawet pokonać modeli, na których się szkoli.

W swojej publicznej wersji konsumenckiej Grok jest celowo nieprzyjemny. Musk przedstawił czat jako mniej tendencyjną i mniej ocenzurowaną alternatywę dla narzędzi takich jak ChatGPT, ale przełożyło się to na produkt z luźnymi standardami dowodowymi, niezdrową obsesją na punkcie Muska i długą historią obraźliwych, konspiracyjnych i seksualizowanych wyników. Nawet

Grok oblewa się w rządowym AI, udowadniając, że nawet biurokraci mają standardy

Wiadomości w Twojej skrzynce.