Révolution des notes par l'IA ? Changement dans les bulletins universitaires, ChatGPT a modifié la "fiabilité des évaluations"

Révolution des notes par l'IA ? Changement dans les bulletins universitaires, ChatGPT a modifié la "fiabilité des évaluations"

Que signifie un "A" à l'université après ChatGPT ?

Un "A" sur le relevé de notes universitaire a longtemps été le symbole de l'excellence. Pour les étudiants, c'était un atout pour les études supérieures ou la recherche d'emploi ; pour les universités, c'était un chiffre démontrant les résultats éducatifs ; et pour les entreprises, c'était un indicateur pratique pour trier les candidats.

Cependant, avec l'omniprésence de l'IA générative sur les bureaux des étudiants, la signification de ce "A" commence à vaciller. Une évaluation élevée reflète-t-elle réellement la compréhension ou la capacité de réflexion de l'étudiant ? Ou bien les enseignants évaluent-ils simplement des textes rédigés par l'IA, des codes écrits par l'IA, ou des travaux peaufinés par l'IA ?

Une étude de l'UC Berkeley, présentée par le média technologique allemand Blogspan, met en lumière ce problème avec des chiffres concrets. L'étude se concentre sur les données de notes de cours dispensés dans une grande université publique de recherche au Texas. Les données analysées couvrent les semestres d'automne de 2018 à 2025, sur 319 cours, 84 départements, avec plus de 500 000 enregistrements de notes basés sur les crédits des étudiants.

L'étude examine comment la distribution des notes universitaires a changé depuis la mise en ligne de ChatGPT en novembre 2022. Plutôt que de simplement constater que "les étudiants récents ont de meilleures notes", les chercheurs se sont concentrés sur le contenu des devoirs de chaque cours. Ils ont comparé les cours avec de nombreux devoirs d'écriture, de rapports et de programmation, où l'IA excelle, avec ceux qui incluent des présentations orales, des travaux pratiques ou des examens en personne, plus difficiles à remplacer par l'IA, avant et après l'apparition de ChatGPT.

Les résultats montrent que dans les cours contenant de nombreux devoirs propices à l'utilisation de l'IA, le pourcentage de notes "A" a augmenté de 13 points, soit une augmentation d'environ 30 % par rapport au niveau de 2022. La moyenne générale (GPA) a également augmenté de 0,12 point, et la distribution des notes s'est resserrée vers le haut. En d'autres termes, plutôt qu'une amélioration uniforme, il y a eu un changement où les étudiants qui auraient obtenu un A- ou un B+ ont été poussés vers un A.

Il est important de noter que l'étude ne conclut pas que "tous les étudiants utilisant l'IA trichent". L'IA générative peut également être un outil d'apprentissage, aidant à structurer des textes, à développer des idées, à détecter des erreurs de code, ou à comprendre des références. Le problème réside dans la frontière floue entre l'assistance et le remplacement.

Par exemple, si un étudiant organise ses propres idées avec l'aide de l'IA et les reconsidère, l'IA peut être considérée comme un soutien à l'apprentissage. En revanche, si un étudiant colle un énoncé de devoir et soumet presque tel quel le texte généré, c'est la qualité de sortie de l'IA qui est évaluée, et non la compréhension de l'étudiant. L'étude met l'accent sur cette dernière possibilité.

Un indice clé est le poids des devoirs à domicile. Si l'amélioration des notes était vraiment due à une meilleure compréhension des étudiants, les notes devraient également s'améliorer dans les cours axés sur les examens et les évaluations en personne. Cependant, l'augmentation des notes est fortement concentrée dans les cours avec une forte proportion de devoirs à domicile, où l'IA pourrait travailler à la place des étudiants sans que les enseignants puissent observer directement le processus de travail.

De plus, lors d'une vérification utilisant le ratio de présentations orales, où l'IA est moins utile, aucune augmentation similaire des notes n'a été observée. Cela ne peut être facilement expliqué par un simple changement d'époque ou une amélioration générale des étudiants. Les chercheurs suggèrent que l'IA générative pourrait créer un nouveau type d'inflation des notes, où les notes augmentent sans nécessairement améliorer les capacités.

Bien sûr, l'inflation des notes universitaires n'est pas un phénomène nouveau. Dans les universités prestigieuses américaines, le pourcentage de notes "A" a augmenté depuis longtemps. Des facteurs tels que la satisfaction des étudiants, l'évaluation des cours, la concurrence entre universités, et les considérations du marché de l'emploi ont rendu difficile pour les enseignants et les universités de noter sévèrement.

Cependant, l'inflation des notes due à l'IA diffère par sa nature. L'inflation traditionnelle des notes était principalement due aux critères d'évaluation des enseignants ou aux politiques institutionnelles. En revanche, l'IA générative modifie les travaux soumis avant même leur évaluation. Même si les critères des enseignants ne changent pas, le niveau de finition des rapports ou des codes soumis par les étudiants est rehaussé. L'apparence est améliorée, l'évaluation augmente, mais il est difficile de savoir si la réflexion et l'expérimentation derrière ces travaux sont réellement celles des étudiants.

Ce point suscite de fortes réactions sur les réseaux sociaux et dans les communautés d'experts. Sur LinkedIn, les réactions des éducateurs et des professionnels d'entreprise soulignent que "ce n'est pas surprenant". Il est naturel que la qualité des rapports et des devoirs de programmation s'améliore avec l'utilisation généralisée de l'IA. Cependant, de nombreux commentaires soulignent que le problème n'est pas tant la tricherie elle-même que le fait que les universités ne savent plus ce qu'elles évaluent.

Une réaction particulièrement marquante est celle qui dit : "La fluidité avec l'IA est importante, mais l'apprentissage l'est aussi. Il ne faut pas confondre les deux." C'est une perspective cruciale pour réfléchir à l'éducation à l'ère de l'IA. Savoir utiliser l'IA deviendra certainement une compétence nécessaire dans la société future. Cependant, la capacité à utiliser l'IA pour améliorer des résultats et la capacité à comprendre profondément un sujet, à l'expliquer avec ses propres mots, et à faire face à des problèmes inconnus ne sont pas les mêmes.

Sur les réseaux sociaux, beaucoup estiment que les universités ne devraient pas simplement interdire l'IA. Des mesures telles que l'utilisation d'outils de détection d'IA pour surveiller les étudiants, le retour aux rapports manuscrits, ou la supervision de tous les examens semblent simples à première vue. Cependant, en réalité, il est difficile d'éliminer complètement l'utilisation de l'IA. De plus, une éducation qui interdit totalement l'IA ne garantit pas le développement des compétences pratiques après l'entrée dans la vie active.

Il émerge donc un débat sur la nécessité de changer la conception même de l'évaluation. Par exemple, évaluer non seulement les travaux soumis mais aussi le processus de travail. Demander aux étudiants d'expliquer à quel stade ils ont utilisé l'IA, comment ils ont examiné les suggestions de l'IA, ce qu'ils ont adopté et ce qu'ils ont modifié. Organiser un court examen oral après la soumission d'un rapport pour que les étudiants expliquent leurs arguments sur place. Pour les devoirs de programmation, interroger non seulement sur le programme finalisé mais aussi sur les décisions de conception et l'historique de gestion des erreurs. De telles méthodes permettent de mieux évaluer si les étudiants comprennent réellement leurs travaux, au-delà de l'utilisation de l'IA.

Ce qu'il faut éviter à tout prix dans le milieu éducatif, c'est de tomber dans une dichotomie simpliste du type "utiliser l'IA est de la triche" et "ne pas l'utiliser est correct". Car les étudiants utilisent déjà l'IA. En partant de cette réalité, il est nécessaire de clarifier ce qui est acceptable et ce qui constitue un acte de substitution, sinon ni les étudiants ni les enseignants ne pourront juger.

Par exemple, autoriser la vérification des fautes de frappe mais interdire la génération d'arguments. Permettre l'utilisation de l'IA pour la génération d'idées, mais exiger que les arguments finaux et la structure soient réalisés par l'étudiant. En programmation, autoriser l'assistance au débogage mais interdire de déléguer la conception des algorithmes principaux. Ces règles devraient varier selon les cours, et il est donc nécessaire de les préciser dans le syllabus et les explications des devoirs.

Ce problème ne se limite pas aux universités. Il affecte également le recrutement des entreprises. Si le GPA ou le relevé de notes reflète l'évaluation de travaux améliorés par l'IA plutôt que les capacités réelles des étudiants, les entreprises auront du mal à faire confiance aux notes. Par conséquent, d'autres moyens d'évaluation, tels que les entretiens, les examens pratiques, les portfolios, et les réalisations en stage, deviendront plus importants.

Pour les étudiants, ce n'est pas simplement une question de "faciliter l'obtention de bonnes notes". S'habituer à un environnement où l'IA réfléchit à leur place réduit les occasions de se poser des questions, d'échouer et de corriger. L'apprentissage nécessite un certain degré de difficulté. Déchiffrer des textes difficiles, lutter avec un code qui ne fonctionne pas, mettre en mots des idées difficiles à expliquer. Ces processus sont essentiels pour s'approprier les connaissances.

L'IA générative peut raccourcir ces efforts. Ce n'est pas mauvais en soi. Mais si tous les efforts sont éliminés, seules les notes restent, et les compétences ne se développent pas. C'est précisément ce danger que souligne cette étude. Les relevés de notes universitaires deviennent plus beaux. Cependant, cette beauté ne signifie pas nécessairement un approfondissement de l'apprentissage.

Cette discussion n'est pas non plus étrangère aux universités, écoles professionnelles et lycées japonais. Les situations où l'IA générative peut intervenir, comme les devoirs de rapport, les essais, les exercices de programmation, l'apprentissage par enquête, et la préparation de présentations, sont déjà nombreuses. La qualité de sortie en japonais s'améliore rapidement, et il deviendra de plus en plus difficile de distinguer un texte écrit par un étudiant d'un texte peaufiné par l'IA.

C'est pourquoi les institutions éducatives doivent rapidement changer leur approche de l'évaluation. Plutôt que de noter uniquement le produit fini, évaluer le processus, la capacité d'explication, l'application et la compréhension dans le dialogue. Ne pas cacher l'utilisation de l'IA, mais en enregistrer l'utilisation. Développer la capacité de remettre en question, de vérifier et de rejeter les réponses fournies par l'IA si nécessaire. Ce sont également de nouvelles compétences académiques à l'ère de l'IA.

En fin de compte, la question n'est pas seulement de savoir si "les étudiants ont utilisé l'IA". Les questions fondamentales sont "Qu'est-ce que l'université appelle compétence ?", "Que prouvent les notes ?", et "Quelles compétences la société considère-t-elle comme fiables ?".

Dans les universités après ChatGPT, on ne peut pas dire que l'éducation est un succès simplement parce que le nombre de notes "A" a augmenté. Au contraire, plus le nombre de "A" augmente, plus il est nécessaire de réexaminer rigoureusement ce que ces "A" mesurent. La capacité à maîtriser l'IA est importante. Cependant, il ne faut pas confondre les résultats délégués à l'IA avec la compréhension personnelle.

L'évaluation universitaire est à un tournant majeur. Doit-on interdire l'IA et revenir en arrière ? Laisser l'IA libre et vider de sens la signification des notes ? Ou bien, en tenant compte de l'IA, réinventer l'évaluation pour qu'elle reflète la pensée personnelle des étudiants ?

Pour que le "A" continue d'être un symbole d'excellence, il est nécessaire de repenser la manière de noter à l'ère de l'IA.


Source URL

Blogspan「Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand」
Point de départ de l'article. Présentation de l'inflation des notes universitaires après ChatGPT, basée sur une étude de l'UC Berkeley.
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education「Artificial Intelligence and Grade Inflation」
Page officielle de présentation de l'étude. Confirmation des auteurs, date de publication, résumé de l'étude, augmentation de 13 points des notes "A", etc.
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov「Artificial Intelligence and Grade Inflation」PDF
Document de travail original. Détails sur les sujets analysés, la méthode de recherche, la distribution des notes, la relation avec le poids des devoirs, et la vérification par présentation orale.
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder「AI is inflating student grades, and the effect points to outsourced work, not better learning」
Article explicatif en anglais sur les résultats de l'étude. Confirmation du point de vue selon lequel l'IA remplace les travaux plutôt que d'améliorer l'apprentissage.
https://the-decoder.com/ai-is-inflating-student-grades-and-the-effect-points-to-outsourced-work-not-better-learning/

Axios「ChatGPT fuels boom of A grades in schools」
Confirmation des commentaires des chercheurs, du poids des devoirs, et de la nécessité de l'intégration de l'IA dans les devoirs et de l'enregistrement de son utilisation.
https://www.axios.com/local/colorado-springs/2026/06/18/ai-grade-inflation-college

Publication LinkedIn : Igor Chirikov
Réaction de l'auteur à la couverture médiatique de l'étude par le Wall Street Journal. Confirmation du point de vue selon lequel les notes changent en tant que signal d'évaluation et de recrutement.
https://www.linkedin.com/posts/igor-chirikov_a-grades-are-suddenly-everywhere-since-activity-7460733177150754816-IpAz

Publication LinkedIn : Emma Cummings / William Garrity
Exemples de réactions sur les réseaux sociaux. Référence à la discussion selon laquelle il ne faut pas confondre la capacité à utiliser l'IA et l'apprentissage, et qu'il est nécessaire de repenser les méthodes d'évaluation.
https://www.linkedin.com/posts/emma-g-c_a-grades-are-suddenly-everywhere-since-activity-7462192795160588290-3WXn

Publication LinkedIn : Eric Menna
Référence à la réaction selon laquelle l'IA met en évidence les faiblesses des devoirs traditionnels et encourage une transition vers des évaluations orales, interactives et basées sur des projets.
https://www.linkedin.com/posts/eric-menna_ai-is-making-skepticism-about-higher-ed-even-activity-7458183195553857536-1eyK

Harvard Magazine「The True Cost of Grade Inflation at Harvard」
Contexte de l'augmentation des notes "A" à Harvard, qui se poursuit depuis avant l'ère de l'IA, en tant que toile de fond de l'inflation des notes dans les universités américaines.
https://www.harvardmagazine.com/university-news/harvard-grade