AIによる成績革命？大学の成績表に異変、ChatGPTが変えた“評価の信頼性”

2026年06月22日 10:35

ChatGPT以後、大学の「A評価」は何を意味するのか

大学の成績表に並ぶ「A」は、長いあいだ優秀さの証明だった。学生にとっては大学院進学や就職活動での武器であり、大学にとっては教育成果を示す数字であり、企業にとっては応募者をふるい分けるための便利な指標だった。

しかし、生成AIが学生の机の上に常駐するようになった今、その「A」が何を意味するのかが揺らぎ始めている。高い評価は本当に学生本人の理解や思考力を示しているのか。それとも、AIが整えた文章、AIが書いたコード、AIが磨き上げた提出物を教員が評価しているだけなのか。

ドイツのテック系メディアBlogspanが紹介したUCバークレーの研究は、この問題をかなり具体的な数字で突きつけている。研究対象は、米テキサス州の大規模な公立研究大学で行われた授業の成績データだ。分析されたのは2018年から2025年までの秋学期、319コース、84学科、学生の履修単位ベースで50万件を超える成績記録である。

研究の焦点は、ChatGPTが一般公開された2022年11月以降、大学の成績分布がどう変わったかにある。単に「最近の学生は成績が良くなった」と見るのではなく、研究者は授業ごとの課題内容に注目した。生成AIが得意とする作文、レポート、プログラミング課題が多い授業と、口頭発表や実技、対面試験などAIが代行しにくい授業を分け、ChatGPT登場前後で成績の変化を比較したのである。

その結果、AIが使われやすい課題を多く含む授業では、A評価の割合が13ポイント上昇していた。これは2022年時点の水準と比べて約30％の増加にあたる。平均GPAも0.12ポイント上がり、成績分布は上位に圧縮された。つまり、全体がまんべんなく少しずつ良くなったというより、AマイナスやBプラスだった層がAに押し上げられるような変化が起きていた。

ここで重要なのは、研究が「AIを使った学生は全員不正をしている」と断定しているわけではない点だ。生成AIは、文章の構成を整える、アイデアを広げる、コードのエラーを見つける、参考文献の読み方を助けるなど、学習を支援する道具にもなりうる。問題は、支援と代替の境界が見えにくいことにある。

たとえば、学生が自分で考えた論点をAIに整理させ、それをもとに再考するなら、AIは学びを補助していると言える。一方で、課題文を貼り付け、出力された文章をほぼそのまま提出するなら、評価されているのは学生の理解ではなくAIの出力品質に近い。今回の研究が重視したのは、この後者の可能性である。

その手がかりになったのが、宿題や持ち帰り課題の比重だ。もし成績上昇が本当に学生の理解力向上によるものなら、宿題中心の授業だけでなく、試験や対面評価でも同じように成績が上がるはずだ。しかし実際には、成績上昇は宿題や持ち帰り課題の比重が高い授業に強く集中していた。教員が学生の作業過程を直接見られない場所で、AIが学生の代わりに仕事をしている可能性が高い、というわけだ。

さらに、AIがあまり役に立たない口頭発表の比率を使った検証では、同じような成績上昇は確認されなかった。これも、単なる時代変化や学生全体の優秀化では説明しにくい。研究者は、生成AIが「成績を上げるが、必ずしも能力を上げていない」新しいタイプの成績インフレを生んでいる可能性を指摘している。

もちろん、大学の成績インフレ自体は新しい話ではない。米国の名門大学では、以前からA評価の割合が増え続けてきた。学生満足度、授業評価、大学間競争、就職市場への配慮など、教員や大学が成績を厳しくつけにくくなる構造は以前から存在していた。

しかし、AIによる成績インフレは従来の問題と性質が違う。従来の成績インフレは、主に教員側の採点基準や大学側の制度によって起きるものだった。だが生成AIは、採点される前の提出物そのものを変えてしまう。教員が基準を変えていなくても、学生が提出するレポートやコードの完成度だけが底上げされる。見た目は立派になり、評価は上がる。しかし、その背後にある思考や試行錯誤が学生本人のものかどうかは分からない。

この点は、SNSや専門家コミュニティでも強く反応されている。LinkedInでは、教育関係者や企業人を中心に「驚きではない」という受け止めが目立つ。生成AIが広く使えるようになれば、レポートやプログラミング課題の完成度が上がるのは当然だ、という反応である。一方で、問題は不正そのものよりも、大学が何を評価しているのか分からなくなったことだ、という声も多い。

特に印象的なのは、「AI流暢性も重要だが、学習も重要だ。両者を混同してはいけない」という趣旨の反応だ。これはAI時代の教育を考えるうえで非常に重要な視点である。AIを使えることは、これからの社会で確かに必要な能力になる。だが、AIを使って成果物を整える能力と、対象を深く理解し、自分の言葉で説明し、未知の問題に対応する能力は同じではない。

SNS上では、大学はAIを禁止するだけでは足りないという意見も目立つ。AI検出ツールで学生を取り締まる、レポートをすべて手書きに戻す、試験をすべて監督付きにする、といった対応は一見分かりやすい。しかし、現実にはAIの使用を完全に排除することは難しい。さらに、AIを一切使わせない教育が、社会に出た後の実務能力を育てるとも限らない。

そこで浮上しているのが、評価設計そのものを変えるべきだという議論だ。たとえば、提出物だけでなく作業過程を評価する。学生に、どの段階でAIを使ったのか、AIの提案をどのように検討し、どこを採用し、どこを修正したのかを説明させる。レポート提出後に短い口頭試問を行い、自分の論点をその場で説明させる。コード課題なら、完成したプログラムだけでなく、設計判断やエラー対応の履歴を問う。こうした方法なら、AIを使ったかどうかよりも、学生がその成果物を本当に理解しているかを見やすくなる。

教育現場で最も避けるべきなのは、「AIを使ったら不正」「使わなければ正しい」という単純な二分法に逃げることだろう。なぜなら、学生はすでにAIを使っているからだ。使っている現実を前提に、どこまでが許容され、どこからが代替行為なのかを明文化しなければ、学生も教員も判断できない。

たとえば、文章の誤字脱字チェックは許可するが、論旨の生成は不可とする。アイデア出しには使ってよいが、最終的な主張と構成は自分で作る。プログラミングではデバッグ支援は認めるが、主要なアルゴリズム設計を丸投げしてはいけない。こうしたルールは授業ごとに異なるはずであり、だからこそシラバスや課題説明で具体化する必要がある。

この問題は大学だけに閉じない。企業の採用にも影響する。GPAや成績表が、学生本人の能力ではなくAIで整えた成果物の評価を反映するようになれば、企業は成績を信頼しにくくなる。すると、面接、実技試験、ポートフォリオ、インターンでの実績など、別の評価手段がより重視されるようになるだろう。

学生にとっても、これは単なる「楽をして高い点を取れる」話ではない。AIが代わりに考えてくれる環境に慣れすぎると、自分で悩み、失敗し、修正する経験が薄くなる。学習には、ある程度の苦労が必要だ。分からない文章を読み解く、動かないコードと格闘する、うまく説明できない考えを言葉にする。そうした過程こそが、知識を自分のものにする。

生成AIは、その苦労を短縮できる。短縮できること自体は悪ではない。だが、すべての苦労を省いてしまえば、成績だけが残り、能力は育たない。今回の研究が示しているのは、まさにその危険性である。大学の成績表はきれいになっている。しかし、そのきれいさが学びの深まりを意味しているとは限らない。

日本の大学や専門学校、高校にも、この議論は無関係ではない。レポート課題、小論文、プログラミング演習、探究学習、プレゼン資料作成など、生成AIが介入できる場面はすでに多い。日本語での出力品質も急速に向上しており、今後は「学生が書いたように見える文章」と「AIが整えた文章」の区別はさらに難しくなる。

だからこそ、教育機関は早めに評価の考え方を変える必要がある。完成品だけを採点するのではなく、プロセス、説明力、応用力、対話の中での理解を評価する。AIの使用を隠させるのではなく、使い方を記録させる。AIが出した答えを疑い、検証し、必要なら拒否する力を育てる。これらは、AI時代の新しい学力そのものでもある。

結局、問われているのは「学生がAIを使ったか」だけではない。「大学は何を学力と呼ぶのか」「成績は何を証明するのか」「社会はどんな能力を信頼するのか」という、より根本的な問題である。

ChatGPT以後の大学では、A評価の数が増えたからといって、教育が成功しているとは言い切れない。むしろ、Aが増えれば増えるほど、そのAが何を測っているのかを厳しく問い直す必要がある。AIを使いこなす力は重要だ。しかし、AIに代行された成果物を、本人の理解と取り違えてはいけない。

大学の評価は、いま大きな分岐点に立っている。AIを禁止して過去に戻ろうとするのか。AIを放置して成績の意味を空洞化させるのか。それとも、AIを前提にしながら、学生本人の思考が見える評価へ作り替えるのか。

「A」が本当に優秀さを示す記号であり続けるためには、成績の付け方そのものを、AI時代に合わせて再設計するしかない。

出典URL

Blogspan「Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand」
記事の出発点。UCバークレーの研究をもとに、ChatGPT以後の大学成績インフレを紹介している。
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education「Artificial Intelligence and Grade Inflation」
研究の公式紹介ページ。著者、発表日、研究概要、A評価13ポイント上昇などの要旨を確認した。
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov「Artificial Intelligence and Grade Inflation」PDF
元のワーキングペーパー。分析対象、研究方法、成績分布、宿題比重との関係、口頭発表を使った検証などの詳細を確認した。
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder「AI is inflating student grades, and the effect points to outsourced work, not better learning」
研究結果の英語圏での解説記事。AIが学習を改善したのではなく、課題作業を代替している可能性という論点を確認した。
https://the-decoder.com/ai-is-inflating-student-grades-and-the-effect-points-to-outsourced-work-not-better-learning/

Axios「ChatGPT fuels boom of A grades in schools」
研究者コメント、宿題比重、AI統合型課題や使用記録の必要性に関する報道を確認した。
https://www.axios.com/local/colorado-springs/2026/06/18/ai-grade-inflation-college

LinkedIn投稿：Igor Chirikov
Wall Street Journalによる研究報道への著者本人の反応。成績が採用・評価シグナルとしてどう変化するかという論点を確認した。
https://www.linkedin.com/posts/igor-chirikov_a-grades-are-suddenly-everywhere-since-activity-7460733177150754816-IpAz

LinkedIn投稿：Emma Cummings / William Garrity
SNS上の反応例。AI活用力と学習を混同してはいけない、評価方法を再考すべきだという議論を参照した。
https://www.linkedin.com/posts/emma-g-c_a-grades-are-suddenly-everywhere-since-activity-7462192795160588290-3WXn

LinkedIn投稿：Eric Menna
AIが従来型課題の弱点を可視化し、口頭試問や対話型評価、プロジェクト型評価への転換を促すという反応を参照した。
https://www.linkedin.com/posts/eric-menna_ai-is-making-skepticism-about-higher-ed-even-activity-7458183195553857536-1eyK

Harvard Magazine「The True Cost of Grade Inflation at Harvard」
AI以前から続く米国大学の成績インフレの背景として、ハーバードでA評価が増加してきた文脈を確認した。
https://www.harvardmagazine.com/university-news/harvard-grade-inflation-faculty-marks

Yale「Report of the Committee on Trust in Higher Education」
成績が学習内容を伝える機能を失いつつあるという、米国高等教育全体の信頼問題に関する文脈を確認した。
https://president.yale.edu/sites/default/files/2026-04/Report-of-the-Committee-on-Trust-in-Higher-Education.pdf