一项曾自信宣称OpenAI的ChatGPT能提升学生学习效果的研究被撤稿了——大约在发表一年后,施普林格·自然(Springer Nature)发现分析中存在“差异”,并对结论失去信心。不过论文倒也不在乎:它早已收获了数百次引用,并在社交媒体上风光了一圈,然后才被拔掉电源。
“论文作者对ChatGPT在学习成果上的益处做出了一些非常吸引眼球的声明,”爱丁堡大学数字教育研究中心和爱丁堡未来研究所的高级讲师本·威廉姆森(Ben Williamson)在给Ars的邮件中说。“它在社交媒体上被许多人视为首批确凿的、黄金标准的证据,证明ChatGPT以及更广泛的生成式AI对学习者有益。”
这篇被撤稿的论文旨在通过分析51项先前研究的结果,量化“ChatGPT对学生学习表现、学习感知和高阶思维的影响”。其元分析计算了使用ChatGPT的实验组与未使用的对照组之间的效应量,据称显示出“对提升学习表现有较大的积极影响”,以及对“增强学习感知”和“培养高阶思维”有“中等积极影响”。该发现最初于2025年5月6日发表在《人文与社会科学通讯》(Humanities & Social Sciences Communications)上。
威廉姆森指出,这篇论文似乎是在“综合非常低质量的研究,或者混合了来自不同方法、人群和样本的研究结果,而这些结果根本无法准确比较”。他还质疑了时间点——距ChatGPT于2022年11月发布仅两年半。“在这么短的时间内,不可能完成、评审并发表数十项关于ChatGPT和学习表现的高质量研究,”他说。
自发表以来,该研究在施普林格·自然同行评审期刊中被引用262次,总计被引用504次,吸引了近50万读者,关注度位列前1%。“研究中所有细节都被剥离了,”威廉姆森感叹道。“只剩下那些主要声明,而某些社交媒体用户帮助推广和推动了它们。”
Meaning Processing Ltd.首席科学家伊尔卡·图奥米(Ilkka Tuomi)曾在领英上警告,元分析试图从不同人群中“对不兼容且定义模糊的结果得出结论”。“进行这些研究的唯一理由似乎是统计和元分析工具可以计算出看起来像科学的数据,”图奥米写道。
2026年4月22日,施普林格·自然发布了撤稿通知,指出“对元分析中差异的担忧”,以及“作者未回应关于撤稿的信函”。威廉姆森在Bluesky和领英上分享了该通知,担心许多读者会错过撤稿信息,并且“ChatGPT有助于学习表现这一标题发现可能会在撤稿后仍然持续存在”。
“对于我们这些努力理解AI对学习、教学和教育更广泛意义的人来说,这一切都令人非常沮丧,”威廉姆森告诉Ars。“我们已经经历了几年关于AI在教育中的炒作,但我们真正需要的是高质量的研究,能够实际展示AI在课堂和学习实践中产生了什么样的影响。”
与此同时,教育工作者们忙于防止AI辅助作弊,科技公司推广“学习模式”聊天机器人和SAT练习工具,至少有一个国家正在重新引入实体书和纸笔学习。但嘿,一篇被撤稿的元分析说ChatGPT很棒,谁还需要证据呢?