Grok eșuează în adoptia AI guvernamentală, demonstrând că și birocrații au standarde

Există un adevăr dur despre chatbotul AI „căutător de adevăr” al lui Elon Musk, Grok: nu este foarte bun și nu mulți oameni îl folosesc. Aceasta este concluzia unui nou raport Reuters, care a descoperit că Grok abia apare în înregistrările federale privind modul în care guvernul SUA a folosit AI anul trecut. Nu este singurul semn că chatbotul emblematic al xAI este în dificultate, chiar în timp ce Musk îl pune în centrul a ceea ce ar putea fi cea mai mare IPO din istorie.

Reuters a analizat peste 400 de exemple de utilizare a AI de către guvern, în care au fost numiți furnizori specifici. Grok sau xAI au apărut doar în trei – fiecare pentru utilizări de bază, cum ar fi redactarea documentelor sau gestionarea rețelelor sociale, și întotdeauna alături de concurenți precum Microsoft și OpenAI. Modelele OpenAI, prin comparație, au apărut în peste 230 de exemple, în timp ce Google și Anthropic au apărut de zeci de ori. Un model similar a apărut într-o altă bază de date cu proiecte AI guvernamentale mai ambițioase, cu un număr mai mic de utilizatori. Grok a apărut doar de trei ori: de două ori pentru sarcini administrative de rutină la Comisia pentru Asistență Electorală și o dată într-un proiect pilot al Departamentului Energiei la Laboratorul Național Lawrence Livermore pentru rezumate de documente și cercetare generală. Reuters a găsit 140 de intrări care implică Microsoft și OpenAI, în timp ce o scurtă revizuire a găsit cel puțin 10 intrări pentru Anthropic și zeci pentru Gemini de la Google.

Listele sunt o măsură incompletă și neregulată a adoptării guvernamentale. Multe alte exemple sunt listate fără un furnizor specific și nu există o definiție universală a ceea ce înseamnă AI. Datele nu includ nici agențiile de informații sau Pentagonul – unde xAI a obținut un contract de 200 de milioane de dolari anul trecut și a fost recent autorizată să opereze pe rețele clasificate după ce Anthropic a fost inclusă pe lista neagră. Totuși, nu arată bine pentru Grok. Apare mult mai puțin decât rivalii săi, iar când apare, este în principal pentru muncă administrativă de bază – cu greu demn de modelul frontieră de clasă mondială de care Musk s-a lăudat ani de zile.

Persoane care au vorbit cu Reuters au sugerat că explicația este simplă: Grok nu este la fel de bun ca rivalii săi. „Pur și simplu nu este cel mai bun model disponibil”, a spus o sursă anonimă de la Pentagon, adăugând că angajații de acolo tind să prefere Gemini sau Claude. Clasamentele publice care clasifică modelele AI susțin această opinie. Anthropic, Google și OpenAI domină primele locuri, în timp ce Grok rareori intră în top 10, cu excepția ocazională a unei categorii de imagini sau video. Acest lucru este jenant pentru Musk și și mai jenant pentru SpaceX, care a absorbit xAI la începutul acestui an. Dosarul IPO al companiei de rachete arată că aceasta a pus AI – și Grok în special – în centrul propunerii sale către investitori. SpaceX susține că a identificat „cea mai mare piață totală acționabilă din istoria umană”: o oportunitate uimitoare de 28,5 trilioane de dolari, deși, din păcate, nu oferă un calendar pentru a ajunge acolo. Practic, toată această valoare estimată provine din AI, în special AI enterprise, nu din rachete sau sateliți.

Reuters notează că performanța lui Grok în agențiile guvernamentale ar putea sugera cum se descurcă și în alte locuri de muncă. Ca parte a efortului xAI de a atrage clienți enterprise, Musk ar fi forțat băncile să cumpere abonamente Grok dacă doresc să participe la IPO-ul SpaceX – dar dacă nu își primesc banii pe măsură, aceste înțelegeri s-ar putea dovedi o soluție pe termen scurt. Ca și cum performanța sa jalnică nu era suficient de jenantă, Musk a recunoscut recent că xAI a folosit modelele OpenAI pentru a ajuta la antrenarea și îmbunătățirea lui Grok. Procesul, cunoscut sub numele de distilare, este standard atunci când companiile își folosesc propriile modele, dar mult mai controversat când implică utilizarea sistemului unui rival. Grok nici măcar nu poate învinge modelele pe care se antrenează.

În versiunea sa publică pentru consumatori, Grok este deliberat neplăcut. Musk a promovat chatbotul ca o alternativă mai puțin părtinitoare și mai puțin cenzurată la instrumente precum ChatGPT, dar asta s-a tradus într-un produs cu standarde de dovezi slabe, o obsesie nesănătoasă pentru Musk și un lung istoric de rezultate ofensatoare, conspiraționiste și sexualizate. Chiar și

Grok eșuează în adoptia AI guvernamentală, demonstrând că și birocrații au standarde

Știri în inbox-ul tău.