生成AI家庭教师的陷阱：错误检测率15%显示“学力下降”的现实

2025年11月22日 12:46

“AI老师”可以信任到什么程度？

——生成AI聊天机器人教育的“承诺”和“陷阱”

在大学和企业培训中，“不懂的事情先问ChatGPT”已经成为日常。
在这种情况下，全球范围内将“AI家庭教师”认真纳入课程的趋势也在加速。

然而，Stevens理工学院的团队进行的最新研究，对这个梦幻般的“AI老师”提出了相当严峻的现实挑战。

“学习者平均只能正确识别出聊天机器人错误回答的15%。”——而且，由于这些错误，测试的正确率大幅下降。菲兹.org

研究的简要概述：

“故意出错的AI老师”和177名学习者

研究团队准备了一个教授初学者统计学的聊天机器人，再现了类似于实际在线学习平台的环境。菲兹.org

对象：大学生和成人学习者，共计177人
学习内容：统计学基础
环境：
- 可以自由向聊天机器人提问
- 同时可以使用在线教科书和搜索引擎（=“开放书本”状态）
- 在机器人的回答下方设置了“问题报告按钮”，发现错误并报告可获得少量奖励

不过，这个机器人中混入了**研究团队事先设置的“故意出错的回答”**。
例如，稍微混淆统计定义，故意偏移计算结果——这些都是与学习内容密切相关但确实错误的信息。菲兹.org

参与者的角色很简单。

“使用AI老师解题，如果发现回答有问题就报告”

即便条件如此完备，结果仍然相当严峻。

令人震惊的数字：

错误检测率15%，学习成绩低于一半

1. 发现错误的概率仅约为15%

“觉得哪里不对劲？”报告就能拿到钱。
教科书和搜索引擎都可以自由使用。
即便如此学习者能够正确报告聊天机器人的错误回答的比例平均仅为15%左右。

也就是说，10次中有8到9次就这样信以为真。

2. 对成绩的影响达到“严重”程度

更为严重的是，对学习结果本身的影响。

遇到错误回答的组
→ 练习题的正确率：25〜30%
使用无错误机器人的组（对照组）
→ 相同问题的正确率：60〜66%

几乎测试分数“减半”的差异。

“如果只是稍微出错，总体上应该有用吧？”
——从这个实验结果来看，这种乐观的期望显得相当危险。

谁是更“易受伤的学习者”

研究团队还分析了哪些学习者更容易受到聊天机器人错误的影响。

特别受影响的是：

在目标领域缺乏基础知识的人
缺乏聊天机器人使用经验的人
非英语母语者
女性参与者（成绩下降相对较大）

此外，“对机器人的信任程度”也很重要。
不太信任聊天机器人的参与者更能正确报告错误。

换句话说，

“AI应该比我聪明”
“解释得这么流畅，肯定是对的”

越是这样认为，越容易忽视错误，这是一种讽刺的结构。

SNS上的反应如何

这篇文章刚刚发布不久，Phys.org和Stevens理工学院的官方发布已经开始在X（旧Twitter）和Facebook上分享。Facebook

结合以往关于“AI与教育”研究和新闻的在线讨论，此次结果的反应大致分为三种模式。dsgains.pitt.edu

1. 教育界的“果然如此”派

在教师和教育研究者中，

“所以说‘AI主导的课程’是危险的”
“15%的错误检测率，从现场感受来看可以理解”
“如果不先进行AI素养教育，引入服务反而会适得其反”

这样的评论很突出。
特别是已经使用ChatGPT作为作业支持的教师，因学生的答案中直接反映出AI的错误，因此将此研究视为“定量的支持”。

2. AI推动派的“因此使用方法很重要”派

另一方面，来自AI应用积极的工程师和EdTech界，

“任何工具都有误差。重要的是‘误差前提的设计’”
“人类的讲座也会有错误。只批评AI是不公平的”

这样的声音也出现。

这些人关注的不是“禁止或全面引入”，而是“在哪些场合、如何有限制地使用”的设计讨论。

3. 学习者的心声：“可以信任到什么程度？”

学生和社会学习者方面，

“到底可以信任AI到什么程度，希望有人给出标准”
“比搜索快，所以即使有风险也会使用”

这样的“摇摆心声”显而易见。
特别是对于使用AI确认自己理解是否正确的人来说，
即使AI本身出错也不容易察觉，此次结果让人感到不安。

难点在哪里：

“检查能力”和“AI的说服力”

阅读这项研究和相关论文，问题的根源可以大致分为两个方面。sundaram.cs.illinois.edu

1. 对初学者来说，“验证”本身就很难

在几乎没有领域知识的状态下
并且，关于专业内容
AI流畅的解释

判断“是否正确”本身就是一个相当高的门槛。

许多参与者，

“与自己的知识不矛盾所以OK”
“有正规的公式和术语应该没问题”

以这样的**“感觉”**为基础进行判断。

然而初学者的“自己的知识”本身就不可靠。
结果是，错误的解释也会被轻易接受。

2. AI会“妙地具有说服力”

大型语言模型非常擅长**展现人类般的文体和逻辑“似是而非”**。
这同时也产生了以下错觉。

解释流畅 → “像专家”
自信满满的语气 → “一定是对的”

在此次研究中，对聊天机器人信任度高的人更容易忽视错误。

讽刺的是，“越习惯使用AI的人”，越容易因其说服力而不加怀疑。PMC

如何相处：

对教师、学习者、开发者的建议

1. 对教师和教育机构的启示

Li等人建议注意聊天机器人的引入时机。

##HTML_TAG

← 返回文章列表

cookie_banner_title