В откровении, которое не удивит ровно никого, кто когда-либо просил чат-бота дать рецепт и получал инструкции по созданию химического оружия, новое исследование подтверждает, что продолжительное глубокое взаимодействие с ИИ — это фантастический способ получить дезинформацию, заблуждения или что похуже. Технология, включая популярные инструменты вроде ChatGPT от OpenAI и Perplexity, просто не готова к сложным рассуждениям, логике или глубокому анализу. Как мог бы выразиться великий философ Сократ, лучше использовать ИИ для малого хорошо, чем для многого плохо, чтобы не оказаться в разговорной кроличьей норе с потенциально опасными последствиями.
Эта мудрая рекомендация подкреплена последними выводами группы Human-Centered AI Стэнфордского университета в их ежегодном отчёте AI Index 2026. Данные показывают, что так называемый агентный ИИ становится замечательно хорош в ограниченных, чётко определённых задачах, особенно тех, что связаны с рутинными онлайн-процессами. По трём ключевым тестам — GAIA, OSWorld и WebArena — ИИ-агенты приближаются к человеческому уровню выполнения многошаговых действий, таких как открытие базы данных, применение правила политики и обновление записи клиента.
Цифры рассказывают историю быстрого, хотя и неравномерного прогресса. В тесте GAIA точность ИИ взлетела до 74,5% с жалких 20% год назад, хотя всё ещё отстаёт от человеческого эталона в 92%. В OSWorld модель Claude Opus 4.5 от Anthropic решает 66,3% задач, приближаясь к 72%, решаемым студентами компьютерных наук, всего на 6 процентных пунктов. WebArena показывает, что модели теперь находятся в пределах 4 процентных пунктов от человеческой базовой точности в 78,2%. Это логично, ведь манипулирование веб-браузером или запросы к базе данных через естественно-языковые подсказки — одни из самых простых сценариев для ИИ.
Однако, когда стэнфордские учёные под руководством главного редактора Ша Саджадие углубились в более сложные виды работы, картина стала гораздо менее обнадёживающей. Исследование показало, что модели хорошо справляются с простыми поисками, но испытывают серьёзные трудности, когда их просят выполнить сложный, многогранный анализ. Это служит критическим напоминанием: даже с чётко определёнными задачами вы всегда должны проверять вывод бота, поскольку средние результаты тестов всё ещё уступают человеческим возможностям, а реальная производительность, вероятно, будет ещё менее надёжной.