AI引发的成绩革命? 大学成绩单的变化,ChatGPT改变了“评价的可信度”

AI引发的成绩革命? 大学成绩单的变化,ChatGPT改变了“评价的可信度”

ChatGPT之后,大学的“A评价”意味着什么

大学成绩单上的“A”长期以来一直是优秀的证明。对于学生来说,它是升学和求职的武器;对于大学来说,它是教育成果的数字体现;对于企业来说,它是筛选申请者的便利指标。

然而,随着生成式AI常驻于学生的书桌上,这个“A”所代表的意义开始动摇。高评价是否真的显示了学生本人的理解和思考能力?还是仅仅是教师在评价AI整理的文章、AI编写的代码、AI打磨的作业?

德国科技媒体Blogspan介绍的加州大学伯克利分校的研究,以相当具体的数字揭示了这个问题。研究对象是美国德克萨斯州一所大型公立研究型大学的课程成绩数据。分析的是从2018年到2025年秋季学期,319门课程,84个学科,超过50万条基于学生学分的成绩记录。

研究的焦点在于,自ChatGPT于2022年11月公开以来,大学的成绩分布发生了怎样的变化。研究者并不仅仅认为“最近的学生成绩变好了”,而是关注于每门课程的作业内容。将生成式AI擅长的作文、报告、编程作业较多的课程,与口头报告、实践、面对面考试等AI难以替代的课程区分开来,比较ChatGPT出现前后的成绩变化。

结果显示,包含大量AI易用作业的课程中,A评价的比例上升了13个百分点。这相当于与2022年水平相比增加了约30%。平均GPA也上升了0.12分,成绩分布向上压缩。也就是说,与其说整体稍微变好,不如说A-或B+的层次被推高到了A。

重要的是,研究并没有断言“使用AI的学生都在作弊”。生成式AI可以成为学习的辅助工具,例如整理文章结构、拓展思路、发现代码错误、帮助阅读参考文献等。问题在于,支援与替代的界限难以看清。

例如,如果学生让AI整理自己思考的论点,并基于此重新思考,那么AI可以说是在辅助学习。另一方面,如果将作业文本粘贴进去,并几乎原封不动地提交输出的文章,那么被评价的更接近于AI的输出质量而非学生的理解。这次研究重视的是后者的可能性。

线索在于作业或带回家作业的比重。如果成绩上升真的源于学生理解力的提高,那么不仅仅是作业为主的课程,考试或面对面评价中成绩也应同样上升。然而实际上,成绩上升强烈集中在作业或带回家作业比重高的课程中。这意味着在教师无法直接看到学生作业过程的地方,AI可能在替代学生工作。

此外,使用口头报告比例进行的验证中,并未确认到同样的成绩上升。这也难以用单纯的时代变化或学生整体优秀化来解释。研究者指出,生成式AI可能正在创造一种“提升成绩但不一定提升能力”的新型成绩通胀。

当然,大学的成绩通胀本身并不是新鲜事。在美国的名校中,A评价的比例一直在增加。学生满意度、课程评价、大学间竞争、对就业市场的考虑等,使得教师和大学难以严格评分的结构早已存在。

然而,AI引发的成绩通胀与以往的问题性质不同。传统的成绩通胀主要由教师的评分标准或大学的制度引起。但生成式AI改变的是被评分前的提交物本身。即使教师没有改变标准,学生提交的报告或代码的完成度也被提升。表面上看起来很出色,评价也上升了。然而,背后的思考和尝试是否属于学生本人则不得而知。

这一点在SNS和专家社区中也引起了强烈反响。在LinkedIn上,教育工作者和企业人士的反应普遍是“这并不令人惊讶”。生成式AI广泛可用后,报告和编程作业的完成度提高是理所当然的反应。另一方面,问题不在于作弊本身,而在于大学不再清楚自己在评价什么。

特别令人印象深刻的是,“AI流畅性重要,但学习也重要,不能混为一谈”这一反应。这是思考AI时代教育时非常重要的视角。能够使用AI确实将成为未来社会所需的能力。然而,使用AI整理成果的能力与深刻理解对象、用自己的语言解释、应对未知问题的能力并不相同。

在SNS上,认为大学仅仅禁止AI是不够的意见也很突出。用AI检测工具来监管学生,恢复手写报告,所有考试都在监考下进行,这些措施看似简单易行。然而,实际上完全排除AI的使用是困难的。此外,完全不使用AI的教育也不一定能培养出社会所需的实际能力。

因此,浮现出一种观点,即应改变评价设计本身。例如,不仅评估提交物,还评估工作过程。让学生解释在哪个阶段使用了AI,如何考虑AI的建议,采用了哪些,修改了哪些。在提交报告后进行简短的口头测试,让学生当场解释自己的论点。如果是代码作业,不仅评估完成的程序,还询问设计判断和错误处理的历史。通过这种方法,比起是否使用了AI,更容易看到学生是否真正理解了成果物。

教育现场最应避免的是逃避到“使用AI就是作弊”“不使用就是正确”这种简单的二分法。因为学生已经在使用AI。在使用的现实前提下,必须明确界定什么是可接受的,什么是替代行为,否则学生和教师都无法判断。

例如,允许检查文章的拼写错误,但不允许生成论点。可以用于构思,但最终的主张和结构必须自己完成。编程中允许调试支持,但不能将主要的算法设计全权交给AI。这样的规则应该因课程而异,因此需要在课程大纲和作业说明中具体化。

这个问题不仅限于大学,也影响到企业的招聘。如果GPA或成绩单反映的不是学生本人的能力,而是AI整理的成果物的评价,企业将难以信任成绩。于是,面试、实践考试、作品集、实习经验等其他评价手段将受到更大重视。

对于学生来说,这不仅仅是“轻松获得高分”的问题。如果过于习惯于AI代替思考的环境,自己思考、失败、修正的经验将会减少。学习需要一定程度的努力。解读不懂的文章,与无法运行的代码斗争,将难以解释的想法用语言表达。正是这些过程使知识成为自己的。

生成式AI可以缩短这种努力。缩短本身并非坏事。然而,如果省去所有的努力,留下的只有成绩,能力则无法培养。这次研究所揭示的正是这种危险性。大学的成绩单变得漂亮了。然而,这种漂亮并不一定意味着学习的深入。

对于日本的大学、专门学校、高中,这一讨论也并非无关。报告作业、小论文、编程练习、探究学习、演示文稿制作等,生成式AI可以介入的场景已经很多。日语输出质量也在迅速提高,今后“看似学生写的文章”和“AI整理的文章”之间的区别将更加困难。

正因如此,教育机构需要尽早改变评价的思路。不仅仅是评分完成品,而是评估过程、解释能力、应用能力、对话中的理解。不要隐藏AI的使用,而是记录使用方法。培养质疑、验证、必要时拒绝AI答案的能力。这些也是AI时代的新学力本身。

最终,问题不仅仅是“学生是否使用了AI”。更根本的问题是“大学称之为什么学力”“成绩证明了什么”“社会信任什么能力”。

在ChatGPT之后的大学中,A评价的数量增加并不一定意味着教育的成功。相反,A越多,就越需要严格质问这个A测量了什么。掌握AI的能力很重要。然而,不能将AI代替的成果物误认为是学生本人的理解。

大学的评价正处于一个重大分岔点。是禁止AI回到过去,还是放任AI使成绩的意义空洞化?或者,在以AI为前提的同时,重塑能够看到学生本人思考的评价?

为了让“A”真正继续成为优秀的象征,必须重新设计适合AI时代的评分方式。


出典URL

Blogspan「Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand」
文章的出发点。基于加州大学伯克利分校的研究,介绍了ChatGPT之后的大学成绩通胀。
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education「Artificial Intelligence and Grade Inflation」
研究的官方介绍页面。确认了作者、发表日期、研究概要、A评价上升13个百分点等要旨。
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov「Artificial Intelligence and Grade Inflation」PDF
原始工作论文。确认了分析对象、研究方法、成绩分布、作业比重与口头报告验证的关系等详细内容。
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder「AI is inflating student grades, and the effect points to outsourced work, not better learning」
研究结果的英语解说文章。确认了AI并未改善学习,而是替代了作业工作的可能性这一论点。
https://the-decoder.com/ai-is-inflating-student-grades-and-the-effect-points-to-outsourced-work-not-better-learning/

Axios「ChatGPT fuels boom of A grades in schools」
确认了研究者评论、作业比重、AI整合型作业及使用记录的必要性相关报道。
https://www.axios.com/local/colorado-springs/2026/06/18/ai-grade-inflation-college

LinkedIn投稿:Igor Chirikov
Wall Street Journal对研究报道的作者本人反应。确认了成绩作为招聘和评价信号如何变化的论点。
https://www.linkedin.com/posts/igor-chirikov_a-grades-are-suddenly-everywhere-since-activity-7460733177150754816-IpAz

LinkedIn投稿:Emma Cummings / William Garrity
SNS上的反应例。参考了不能混淆AI利用能力与学习,应该重新思考评价方法的讨论。
https://www.linkedin.com/posts/emma-g-c_a-grades-are-suddenly-everywhere-since-activity-7462192795160588290-3WXn

LinkedIn投稿:Eric Menna
参考了AI使传统作业的弱点显现,促使向口头测试、对话型评价、项目型评价转变的反应。
https://www.linkedin.com/posts/eric-menna_ai-is-making-skepticism-about-higher-ed-even-activity-7458183195553857536-1eyK

Harvard Magazine「The True Cost of Grade Inflation at Harvard」
确认了作为AI之前美国大学成绩通胀背景的哈佛A评价增加的文脉。
https://www.harvardmagazine.com/university-news/harvard-grade-inflation-faculty-marks

Yale「Report of the Committee on Trust in Higher Education」
确认了成绩正在失去传达学习内容功能的美国高等教育整体信任问题的文脉。
https://president.yale.edu/sites/default/files/2026-04/Report-of-the-Committee-on-Trust-in-Higher-Education.pdf