Grok провалился во внедрении ИИ в госорганах, доказывая, что даже бюрократы имеют стандарты

Существует суровая правда о «правдоискательном» ИИ-чате Илона Маска Grok: он не очень хорош, и не многие им пользуются. Таков вывод нового отчета Reuters, который показал, что Grok едва фигурирует в федеральных записях об использовании ИИ правительством США в прошлом году. Это не единственный признак того, что фирменный чат xAI в беде, даже несмотря на то, что Маск ставит его в центр того, что может стать крупнейшим IPO в истории.

Reuters изучил более 400 примеров использования ИИ в правительстве, где были названы конкретные поставщики. Grok или xAI появились только в трех — каждый для базовых задач, таких как составление документов или управление соцсетями, и всегда вместе с конкурентами вроде Microsoft и OpenAI. Модели OpenAI, для сравнения, появились более чем в 230 примерах, в то время как Google и Anthropic — десятки раз. Аналогичная картина наблюдалась в другой базе данных более амбициозных правительственных проектов ИИ с меньшим числом пользователей. Grok появился всего трижды: дважды для рутинных административных задач в Комиссии по содействию выборам и один раз в пилотном проекте Министерства энергетики в Ливерморской национальной лаборатории для резюмирования документов и общих исследований. Reuters нашел 140 записей с участием Microsoft и OpenAI, в то время как краткий обзор выявил как минимум 10 записей для Anthropic и десятки для Google Gemini.

Эти списки — неполный и фрагментарный показатель внедрения в правительстве. Многие примеры перечислены без указания конкретного поставщика, и не существует универсального определения того, что считать ИИ. Данные также не охватывают разведывательные управления или Пентагон — где xAI в прошлом году получил контракт на 200 миллионов долларов и недавно был допущен к работе в закрытых сетях после того, как Anthropic попал в черный список. Тем не менее, для Grok это выглядит неважно. Он появляется гораздо реже, чем его конкуренты, и когда появляется, то в основном для базовой административной работы — что едва ли подобает первоклассной frontier-модели, которой Маск хвастался годами.

Люди, говорившие с Reuters, предположили, что объяснение простое: Grok не так хорош, как его конкуренты. Это «просто не лучшая модель на рынке», сказал неназванный источник в Пентагоне, добавив, что сотрудники там предпочитают Gemini или Claude. Публичные рейтинги моделей ИИ подтверждают эту точку зрения. Anthropic, Google и OpenAI доминируют в верхних строчках, в то время как Grok редко попадает в топ-10, за исключением редких категорий изображений или видео. Это неловко для Маска и еще более неловко для SpaceX, которая поглотила xAI в начале этого года. В заявке на IPO ракетного предприятия указано, что компания поставила ИИ — и конкретно Grok — в центр своей презентации для инвесторов. SpaceX утверждает, что выявила «крупнейший реализуемый общий адресный рынок в истории человечества»: ошеломляющую возможность в 28,5 триллиона долларов, хотя, к сожалению, не предлагает сроков ее достижения. Практически вся эта оценка исходит от ИИ, особенно корпоративного ИИ, а не от ракет или спутников.

Reuters отмечает, что производительность Grok в правительственных учреждениях может намекать на то, насколько хорошо он работает и в других местах. В рамках продвижения xAI среди корпоративных клиентов Маск, по слухам, заставлял банки покупать подписки на Grok, если они хотят участвовать в IPO SpaceX — но если они не получают отдачи от своих денег, эти сделки могут оказаться краткосрочным решением. Как будто его унылой производительности было недостаточно, Маск недавно признал, что xAI использовал модели OpenAI для обучения и улучшения Grok. Процесс, известный как дистилляция, является стандартным, когда компании используют свои собственные модели, но гораздо более спорным, когда речь идет об использовании системы конкурента. Grok не может даже превзойти модели, на которых он обучается.

В своей публичной потребительской версии Grok намеренно неприятен. Маск позиционировал чат как менее предвзятую и менее цензурированную альтернативу таким инструментам, как ChatGPT, но это вылилось в продукт с низкими стандартами доказательств, нездоровой одержимостью Маском и долгой историей оскорбительных, конспирологических и сексуализированных выходок.

Grok провалился во внедрении ИИ в госорганах, доказывая, что даже бюрократы имеют стандарты

Новости в вашей почте.