In einer Enthüllung, die genau niemanden schockieren wird, der jemals einen Chatbot nach einem Rezept gefragt und Anleitungen für eine chemische Waffe erhalten hat, bestätigt neue Forschung, dass langwierige, tiefgehende Interaktionen mit KI eine fantastische Möglichkeit sind, desinformiert, getäuscht oder Schlimmeres zu werden. Die Technologie, einschließlich beliebter Tools wie OpenAIs ChatGPT und Perplexity, ist einfach noch nicht bereit, anspruchsvolles Denken, Logik oder tiefgehende Analyse zu bewältigen. Wie der große Philosoph Sokrates es vielleicht ausgedrückt hätte: Es ist besser, KI für eine kleine Sache gut zu nutzen als für eine große schlecht, damit man sich nicht in einem Gesprächskaninchenbau mit potenziell gefährlichen Ergebnissen verirrt.

Diese weise Ratschläge werden durch die neuesten Erkenntnisse der Human-Centered AI-Gruppe der Stanford University in ihrem Jahresbericht AI Index 2026 unterstrichen. Die Daten zeigen, dass sogenannte agentische KI bemerkenswert gut bei begrenzten, klar definierten Aufgaben wird, insbesondere bei solchen, die routinemäßige Online-Prozesse betreffen. In drei wichtigen Benchmarks – GAIA, OSWorld und WebArena – nähern sich KI-Agenten der menschlichen Leistung bei mehrstufigen Aktionen wie dem Öffnen einer Datenbank, der Anwendung einer Regel und der Aktualisierung eines Kundenprofils.

Die Zahlen erzählen eine Geschichte von schnellem, wenn auch ungleichmäßigem Fortschritt. Im GAIA-Test ist die KI-Genauigkeit auf 74,5 % gestiegen, von nur 20 % vor einem Jahr, obwohl sie immer noch hinter dem menschlichen Benchmark von 92 % zurückbleibt. Bei OSWorld löst Anthropics Claude Opus 4.5-Modell 66,3 % der Aufgaben, was es innerhalb von 6 Prozentpunkten der 72 % liegt, die Informatikstudenten lösen. WebArena zeigt, dass Modelle jetzt innerhalb von 4 Prozentpunkten der menschlichen Basisgenauigkeit von 78,2 % liegen. Das macht Sinn, denn das Manipulieren eines Webbrowsers oder das Abfragen einer Datenbank über natürliche Sprache sind unter den einfacheren Szenarien für KI.

Als die Stanford-Wissenschaftler unter der Leitung von Chefredakteurin Sha Sajadieh jedoch tiefergehende Arten von Arbeit untersuchten, wurde das Bild weit weniger ermutigend. Die Forschung ergab, dass Modelle einfache Nachschlagearbeiten gut bewältigen, aber tiefgreifend kämpfen, wenn sie gebeten werden, komplexe, vielschichtige Analysen durchzuführen. Dies dient als kritische Erinnerung: Selbst bei klar definierten Aufgaben sollten Sie immer die Ausgabe des Bots überprüfen, da die durchschnittlichen Benchmark-Werte immer noch hinter der menschlichen Kapazität zurückbleiben und die Leistung in der realen Welt wahrscheinlich noch unzuverlässiger ist.