Eine Studie, die selbstbewusst behauptete, dass OpenAIs ChatGPT das Lernen von Schülern verbessern kann, wurde etwa ein Jahr nach ihrer Veröffentlichung zurückgezogen, nachdem Springer Nature „Unstimmigkeiten“ in der Analyse entdeckte und das Vertrauen in ihre Schlussfolgerungen verlor. Nicht, dass das Papier das gestört hätte – es hatte bereits hunderte Zitationen gesammelt und einen glorreichen Lauf durch die sozialen Medien hingelegt, bevor der Stecker gezogen wurde.
„Die Autoren des Papiers machten einige sehr aufmerksamkeitsstarke Behauptungen über die Vorteile von ChatGPT für Lernergebnisse“, sagte Ben Williamson, Senior Lecturer am Centre for Research in Digital Education und dem Edinburgh Futures Institute der Universität Edinburgh, in einer E-Mail an Ars. „Es wurde von vielen in den sozialen Medien als einer der ersten harten, goldenen Standardbeweise behandelt, dass ChatGPT und generative KI im weiteren Sinne Lernenden nützt.“
Das zurückgezogene Papier zielte darauf ab, „den Effekt von ChatGPT auf die Lernleistung, die Lernwahrnehmung und das höhere Denken der Schüler“ zu quantifizieren, indem es Ergebnisse aus 51 früheren Studien analysierte. Seine Metaanalyse berechnete Effektstärken zwischen experimentellen Gruppen, die ChatGPT nutzten, und Kontrollgruppen, die es nicht nutzten, und zeigte angeblich „einen großen positiven Einfluss auf die Verbesserung der Lernleistung“ sowie einen „mäßig positiven Einfluss auf die Verbesserung der Lernwahrnehmung“ und die „Förderung höheren Denkens“. Die Ergebnisse erschienen erstmals am 6. Mai 2025 in Humanities & Social Sciences Communications.
Williamson merkte an, dass das Papier offenbar „sehr schlechte Studien synthetisierte oder Ergebnisse aus Studien vermischte, die aufgrund sehr unterschiedlicher Methoden, Populationen und Stichproben einfach nicht genau verglichen werden können“. Er hinterfragte auch den Zeitpunkt – nur zweieinhalb Jahre nach der Veröffentlichung von ChatGPT im November 2022. „Es ist nicht machbar, dass Dutzende hochwertiger Studien über ChatGPT und Lernleistung in dieser Zeit durchgeführt, begutachtet und veröffentlicht worden sein könnten“, sagte er.
Seit der Veröffentlichung wurde die Studie 262 Mal in von Springer Nature begutachteten Fachzeitschriften und insgesamt 504 Mal zitiert, zog fast eine halbe Million Leser an und erzielte das 99. Perzentil für Aufmerksamkeit. „Alle Details der Studie wurden weggelassen“, beklagte Williamson. „Übrig blieben nur die großen Behauptungen, die bestimmte Nutzer sozialer Medien verstärkten und vorantrieben.“
Ilkka Tuomi, Chefwissenschaftler der Meaning Processing Ltd., hatte auf LinkedIn vor Metaanalysen gewarnt, die versuchen, „Schlussfolgerungen aus inkompatiblen und schlecht definierten Ergebnissen“ verschiedener Populationen zu ziehen. „Der einzige Grund, diese Studien durchzuführen, scheint zu sein, dass Statistik- und Metaanalyse-Tools Zahlen ausspucken können, die wie Wissenschaft aussehen“, schrieb Tuomi.
Am 22. April 2026 veröffentlichte Springer Nature eine Rücknahmemitteilung, in der „Bedenken hinsichtlich Unstimmigkeiten in der Metaanalyse“ geäußert wurden und dass „die Autoren nicht auf Korrespondenz bezüglich der Rücknahme reagiert hatten“. Williamson teilte die Mitteilung auf Bluesky und LinkedIn und befürchtete, dass viele Leser die Rücknahme verpassen würden und dass „die Schlagzeile, dass ChatGPT die Lernleistung verbessert, trotz der Rücknahme bestehen bleiben könnte“.
„All das ist äußerst frustrierend für diejenigen von uns, die sich bemühen, zu verstehen, was KI für Lernen, Lehre und Bildung im Allgemeinen bedeutet“, sagte Williamson zu Ars. „Wir hatten mehrere Jahre Hype um KI in der Bildung, aber was wir wirklich brauchen, ist hochwertige Forschung, die uns tatsächlich zeigen kann, welche Auswirkungen KI in Klassenzimmern und Lernpraktiken hat.“
In der Zwischenzeit bemühen sich Pädagogen, KI-gestütztes Betrug zu verhindern, Technologieunternehmen pushen „Lernmodus“-Chatbots und SAT-Übungstools, und mindestens ein Land führt physische Bücher und Stift-und-Papier-Lernen wieder ein. Aber hey, eine zurückgezogene Metaanalyse hat gesagt, dass ChatGPT großartig ist, also wer braucht schon Beweise?