W rewelacji, która zaszokuje dokładnie nikogo, kto kiedykolwiek poprosił chatbota o przepis i otrzymał instrukcje tworzenia broni chemicznej, nowe badania potwierdzają, że długotrwałe, głębokie interakcje z AI to fantastyczny sposób na bycie wprowadzonym w błąd, oszukanym lub gorzej. Technologia, w tym popularne narzędzia jak ChatGPT OpenAI i Perplexity, po prostu nie jest gotowa na zaawansowane rozumowanie, logikę czy głęboką analizę. Jak mógłby to ująć wielki filozof Sokrates, lepiej używać AI do małego dobra niż do wielkiego zła, by nie znaleźć się w rozmownej króliczej norze z potencjalnie niebezpiecznymi skutkami.

Ta mądra rada jest podkreślona przez najnowsze ustalenia grupy Human-Centered AI Uniwersytetu Stanforda w ich raporcie Annual AI Index 2026. Dane pokazują, że tak zwana agentyczna AI staje się niezwykle dobra w ograniczonych, dobrze zdefiniowanych zadaniach, szczególnie tych obejmujących rutynowe procesy online. Na trzech kluczowych benchmarkach - GAIA, OSWorld i WebArena - agenci AI zbliżają się do poziomu ludzkiego w wieloetapowych działaniach jak otwieranie bazy danych, stosowanie reguły polityki i aktualizacja rekordu klienta.

Liczby opowiadają historię szybkiego, choć nierównego postępu. Na teście GAIA, dokładność AI wzrosła gwałtownie do 74,5% z zaledwie 20% rok temu, choć wciąż pozostaje w tyle za ludzkim benchmarkiem 92%. Na OSWorld, model Claude Opus 4.5 Anthropic rozwiązuje 66,3% zadań, plasując się w odległości 6 punktów procentowych od 72% rozwiązywanych przez studentów informatyki. WebArena pokazuje, że modele są teraz w odległości 4 punktów procentowych od ludzkiej bazowej dokładności 78,2%. To ma sens, ponieważ manipulowanie przeglądarką internetową czy zapytania do bazy danych za pomocą poleceń w języku naturalnym są jednymi z łatwiejszych scenariuszy dla AI.

Jednak gdy uczeni ze Stanforda, pod przewodnictwem redaktora naczelnego Sha Sajadieh, zagłębili się w bardziej złożone rodzaje pracy, obraz stał się znacznie mniej zachęcający. Badania wykazały, że modele dobrze radzą sobie z prostymi wyszukiwaniami, ale głęboko się zmagają, gdy prosi się je o wykonanie złożonej, wieloaspektowej analizy. To służy jako krytyczne przypomnienie: nawet przy dobrze zdefiniowanych zadaniach, zawsze należy weryfikować wynik bota, ponieważ średnie wyniki benchmarków wciąż nie dorównują ludzkim możliwościom, a rzeczywista wydajność prawdopodobnie będzie jeszcze mniej niezawodna.