Revolution der Noten durch KI? Veränderungen im Universitätszeugnis, ChatGPT verändert die "Zuverlässigkeit der Bewertung"

Revolution der Noten durch KI? Veränderungen im Universitätszeugnis, ChatGPT verändert die "Zuverlässigkeit der Bewertung"

Was bedeutet eine "A-Bewertung" an Universitäten nach ChatGPT?

Ein "A" auf dem Universitätszeugnis war lange Zeit ein Beweis für Exzellenz. Für Studierende war es ein Vorteil bei der Bewerbung für ein Graduiertenprogramm oder eine Arbeitsstelle, für Universitäten ein Maßstab für den Bildungserfolg und für Unternehmen ein praktisches Kriterium zur Auswahl von Bewerbern.

Doch seit generative KI auf den Schreibtischen der Studierenden allgegenwärtig ist, beginnt sich die Bedeutung dieses "A" zu verändern. Zeigt eine hohe Bewertung wirklich das Verständnis und die Denkfähigkeit der Studierenden? Oder bewerten die Lehrkräfte lediglich von KI verfasste Texte, von KI geschriebene Codes oder von KI verbesserte Einreichungen?

Eine von Blogspan, einem deutschen Tech-Medium, vorgestellte Studie der UC Berkeley wirft ein sehr konkretes Licht auf dieses Problem. Die Studie analysiert die Notendaten von Kursen an einer großen öffentlichen Forschungsuniversität in Texas. Untersucht wurden die Herbstsemester von 2018 bis 2025, 319 Kurse, 84 Fachbereiche und über 500.000 Notenaufzeichnungen auf Basis der belegten Einheiten der Studierenden.

Der Fokus der Studie liegt darauf, wie sich die Notenverteilung an Universitäten seit der allgemeinen Verfügbarkeit von ChatGPT im November 2022 verändert hat. Anstatt einfach zu sagen, "die Noten der aktuellen Studierenden sind besser geworden", konzentrierten sich die Forscher auf den Inhalt der Aufgaben in den Kursen. Sie verglichen Kurse mit vielen Aufgaben, die generative KI gut bewältigen kann, wie Essays, Berichte und Programmieraufgaben, mit Kursen, die mündliche Präsentationen, praktische Übungen oder Präsenzprüfungen beinhalten, bei denen KI weniger hilfreich ist.

Das Ergebnis zeigte, dass in Kursen mit vielen KI-geeigneten Aufgaben der Anteil der A-Bewertungen um 13 Prozentpunkte gestiegen war. Dies entspricht einem Anstieg von etwa 30 % im Vergleich zum Niveau von 2022. Der durchschnittliche GPA stieg um 0,12 Punkte, und die Notenverteilung konzentrierte sich auf die oberen Bereiche. Das bedeutet, dass sich nicht alle Noten gleichmäßig verbessert haben, sondern dass Studierende, die zuvor ein A-Minus oder B-Plus hatten, nun ein A erhielten.

Wichtig ist, dass die Studie nicht behauptet, dass alle Studierenden, die KI nutzen, betrügen. Generative KI kann auch als Lernhilfe dienen, indem sie z.B. die Struktur von Texten verbessert, Ideen erweitert, Fehler im Code findet oder beim Verständnis von Referenzen hilft. Das Problem liegt darin, dass die Grenze zwischen Unterstützung und Ersatz schwer zu erkennen ist.

Wenn beispielsweise ein Studierender seine eigenen Argumente von der KI ordnen lässt und diese dann überdenkt, unterstützt die KI das Lernen. Wenn jedoch der Text der Aufgabe eingefügt und das ausgegebene Ergebnis fast unverändert eingereicht wird, wird nicht das Verständnis des Studierenden, sondern die Qualität der KI-Ausgabe bewertet. Die Studie legt besonderes Augenmerk auf diese letztere Möglichkeit.

Ein Hinweis darauf war der Schwerpunkt auf Hausaufgaben und Take-Home-Aufgaben. Wenn der Notenanstieg wirklich auf ein besseres Verständnis der Studierenden zurückzuführen wäre, sollten die Noten nicht nur in kursen mit Hausaufgaben, sondern auch in Prüfungen und Präsenzbewertungen steigen. Tatsächlich konzentrierte sich der Notenanstieg jedoch stark auf Kurse mit einem hohen Anteil an Hausaufgaben und Take-Home-Aufgaben. Das deutet darauf hin, dass KI möglicherweise die Arbeit der Studierenden an Orten übernimmt, an denen Lehrkräfte den Arbeitsprozess der Studierenden nicht direkt beobachten können.

Eine Überprüfung anhand des Anteils an mündlichen Präsentationen, bei denen KI wenig hilfreich ist, zeigte keinen ähnlichen Notenanstieg. Auch dies lässt sich schwerlich durch eine einfache zeitliche Veränderung oder eine allgemeine Verbesserung der Studierenden erklären. Die Forscher weisen darauf hin, dass generative KI eine neue Art von Noteninflation erzeugt, die die Noten erhöht, aber nicht unbedingt die Fähigkeiten.

Natürlich ist die Noteninflation an Universitäten kein neues Thema. An renommierten US-Universitäten hat der Anteil der A-Bewertungen schon lange zugenommen. Faktoren wie die Zufriedenheit der Studierenden, Kursbewertungen, der Wettbewerb zwischen Universitäten und die Rücksichtnahme auf den Arbeitsmarkt haben es Lehrkräften und Universitäten schon immer schwer gemacht, strenge Noten zu vergeben.

Doch die Noteninflation durch KI unterscheidet sich in ihrer Natur von bisherigen Problemen. Bisher wurde die Noteninflation hauptsächlich durch die Bewertungsstandards der Lehrkräfte oder die Systeme der Universitäten verursacht. Generative KI verändert jedoch die eingereichten Arbeiten selbst, bevor sie bewertet werden. Auch wenn die Lehrkräfte ihre Standards nicht ändern, wird die Qualität der von den Studierenden eingereichten Berichte oder Codes verbessert. Sie sehen beeindruckend aus und die Bewertungen steigen. Doch ob das dahinter stehende Denken und die Versuche von den Studierenden selbst stammen, bleibt unklar.

Dieser Punkt wird auch in sozialen Netzwerken und Fachgemeinschaften stark diskutiert. Auf LinkedIn äußern sich vor allem Bildungsexperten und Unternehmensvertreter mit der Meinung, dass dies nicht überraschend sei. Wenn generative KI weit verbreitet wird, ist es selbstverständlich, dass die Qualität von Berichten und Programmieraufgaben steigt. Andererseits gibt es viele Stimmen, die sagen, dass das Problem weniger im Betrug selbst liegt, sondern darin, dass unklar geworden ist, was die Universitäten eigentlich bewerten.

Besonders auffällig ist die Reaktion, dass "AI-Fluency wichtig ist, aber auch das Lernen. Man darf beides nicht verwechseln." Dies ist ein sehr wichtiger Standpunkt, wenn es um die Betrachtung der Bildung im KI-Zeitalter geht. Die Fähigkeit, KI zu nutzen, wird in der zukünftigen Gesellschaft sicherlich eine notwendige Fähigkeit sein. Doch die Fähigkeit, mit KI Ergebnisse zu verbessern, ist nicht dasselbe wie die Fähigkeit, ein Thema tief zu verstehen, es in eigenen Worten zu erklären und auf unbekannte Probleme zu reagieren.

Auf sozialen Netzwerken gibt es auch die Meinung, dass es nicht ausreicht, KI an Universitäten einfach zu verbieten. Maßnahmen wie die Überwachung der Studierenden mit KI-Erkennungstools, die Rückkehr zu handschriftlichen Berichten oder die Durchführung aller Prüfungen unter Aufsicht scheinen auf den ersten Blick verständlich. In der Realität ist es jedoch schwierig, die Nutzung von KI vollständig zu unterbinden. Darüber hinaus garantiert eine Bildung, die den Einsatz von KI vollständig verbietet, nicht unbedingt die Entwicklung praktischer Fähigkeiten nach dem Eintritt in die Arbeitswelt.

Daher wird zunehmend diskutiert, dass das Bewertungssystem selbst geändert werden sollte. Beispielsweise könnte nicht nur das Endprodukt, sondern auch der Arbeitsprozess bewertet werden. Studierende könnten erklären, in welchem Stadium sie KI eingesetzt haben, wie sie die Vorschläge der KI geprüft haben, welche sie übernommen und welche sie geändert haben. Nach der Einreichung eines Berichts könnte ein kurzes mündliches Examen durchgeführt werden, bei dem die Studierenden ihre Argumente vor Ort erklären. Bei Programmieraufgaben könnte nicht nur das fertige Programm, sondern auch die Entwurfsentscheidungen und die Fehlerbehandlungshistorie bewertet werden. Auf diese Weise könnte man leichter erkennen, ob die Studierenden das Ergebnis wirklich verstehen, unabhängig davon, ob sie KI eingesetzt haben oder nicht.

Das Wichtigste, was im Bildungsbereich vermieden werden sollte, ist die einfache Dichotomie "KI-Einsatz ist Betrug" und "kein KI-Einsatz ist korrekt". Denn die Studierenden nutzen bereits KI. Basierend auf dieser Realität muss klar definiert werden, was akzeptabel ist und was als Ersatzhandlung gilt, sonst können weder die Studierenden noch die Lehrkräfte eine fundierte Entscheidung treffen.

Beispielsweise könnte die Überprüfung von Rechtschreibfehlern erlaubt sein, aber die Generierung von Argumenten nicht. Die Nutzung von KI zur Ideenfindung könnte erlaubt sein, aber die endgültigen Argumente und die Struktur sollten selbst erstellt werden. Beim Programmieren könnte die Unterstützung bei der Fehlersuche erlaubt sein, aber das Design der Hauptalgorithmen sollte nicht vollständig an KI delegiert werden. Diese Regeln sollten je nach Kurs unterschiedlich sein und daher im Lehrplan und in der Aufgabenbeschreibung konkretisiert werden.

Dieses Problem beschränkt sich nicht nur auf Universitäten. Es hat auch Auswirkungen auf die Unternehmensrekrutierung. Wenn GPA und Zeugnisse die Bewertung von KI-gestützten Ergebnissen und nicht die Fähigkeiten der Studierenden widerspiegeln, wird es für Unternehmen schwieriger, den Noten zu vertrauen. Infolgedessen könnten Vorstellungsgespräche, praktische Prüfungen, Portfolios und Praktikumserfahrungen als alternative Bewertungsmethoden stärker in den Vordergrund rücken.

Für Studierende ist dies nicht nur eine Frage des "bequemen Erreichens hoher Noten". Wenn sie sich zu sehr an eine Umgebung gewöhnen, in der KI für sie denkt, verlieren sie die Erfahrung, selbst zu kämpfen, Fehler zu machen und zu korrigieren. Lernen erfordert ein gewisses Maß an Anstrengung. Unverständliche Texte zu entschlüsseln, mit nicht funktionierendem Code zu kämpfen und schwer zu erklärende Gedanken in Worte zu fassen – all diese Prozesse helfen, Wissen zu verinnerlichen.

Generative KI kann diese Anstrengungen verkürzen. Das Verkürzen an sich ist nicht schlecht. Aber wenn alle Anstrengungen vermieden werden, bleiben nur die Noten übrig und die Fähigkeiten entwickeln sich nicht. Genau auf diese Gefahr weist die Studie hin. Die Universitätszeugnisse sehen zwar besser aus, aber das bedeutet nicht unbedingt, dass das Lernen vertieft wurde.

Auch für japanische Universitäten, Fachhochschulen und Gymnasien ist diese Diskussion relevant. Es gibt bereits viele Bereiche, in denen generative KI eingreifen kann, wie bei Berichtsaufgaben, Essays, Programmierübungen, forschendem Lernen und der Erstellung von Präsentationsmaterialien. Die Qualität der Ausgaben auf Japanisch verbessert sich schnell, und in Zukunft wird es noch schwieriger, zwischen "von Studierenden geschriebenen Texten" und "von KI verbesserten Texten" zu unterscheiden.

Deshalb müssen Bildungseinrichtungen frühzeitig ihre Bewertungsansätze ändern. Anstatt nur das Endprodukt zu bewerten, sollten der Prozess, die Erklärungsfähigkeit, die Anwendungsfähigkeit und das Verständnis im Dialog bewertet werden. Die Nutzung von KI sollte nicht verborgen, sondern dokumentiert werden. Die Fähigkeit, die von KI gegebenen Antworten zu hinterfragen, zu überprüfen und bei Bedarf abzulehnen, sollte gefördert werden. Diese Fähigkeiten sind auch die neuen akademischen Fähigkeiten im KI-Zeitalter.

Letztlich geht es nicht nur darum, ob Studierende KI nutzen. Es geht um grundlegendere Fragen wie: "Was bezeichnen Universitäten als akademische Fähigkeiten?", "Was beweisen Noten?" und "Welche Fähigkeiten vertraut die Gesellschaft?"

An Universitäten nach ChatGPT kann man nicht einfach sagen, dass die Bildung erfolgreich ist, nur weil die Anzahl der A-Bewertungen gestiegen ist. Je mehr A-Bewertungen es gibt, desto dringlicher muss hinterfragt werden, was diese A-Bewertungen wirklich messen. Die Fähigkeit, KI zu beherrschen, ist wichtig. Aber man darf nicht die von KI erstellten Ergebnisse mit dem Verständnis der Studierenden verwechseln.

Die Bewertung an Universitäten steht an einem großen Wendepunkt. Soll KI verboten werden, um in die Vergangenheit zurückzukehren? Soll KI ignoriert werden, wodurch die Bedeutung der Noten ausgehöhlt wird? Oder soll das Bewertungssystem so umgestaltet werden, dass es die Gedanken der Studierenden sichtbar macht, während KI als Voraussetzung akzeptiert wird?

Damit das "A" wirklich ein Symbol für Exzellenz bleibt, muss die Art der Notenvergabe an das KI-Zeitalter angepasst und neu gestaltet werden.


Quellen-URL

Blogspan „Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand“
Ausgangspunkt des Artikels. Basierend auf der UC Berkeley-Studie wird die Noteninflation an Universitäten nach ChatGPT vorgestellt.
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education „Artificial Intelligence and Grade Inflation“
Offizielle Vorstellungsseite der Studie. Autoren, Veröffentlichungsdatum, Forschungsübersicht, Anstieg der A-Bewertungen um 13 Punkte und andere Schlüsselpunkte wurden überprüft.
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov „Artificial Intelligence and Grade Inflation“ PDF
Das ursprüngliche Arbeitspapier. Details zur Analyse, Forschungsmethoden, Notenverteilung, Zusammenhang mit dem Anteil der Hausaufgaben und Überprüfung durch mündliche Präsentationen wurden überprüft.
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder „AI is inflating student grades, and the effect points to outsourced work, not better learning“
Englischsprachiger Artikel zur Erklärung der Studienergebnisse. Der Punkt, dass KI nicht das Lernen verbessert, sondern die Aufgabenarbeit ersetzt, wurde überprüft.
https://the-decoder.com/ai-is-inflating-student-grades-and-the-effect-points-to-outsourced-work-not-better-learning/

Axios „ChatGPT fuels boom of A grades in schools“
Forscherkommentare, Anteil der Hausaufgaben, Notwendigkeit von KI-integrierten Aufgaben und Aufzeichnungen wurden überprüft.
https://www.axios.com/local/colorado-springs/2026/06/18/ai-grade-inflation-college

LinkedIn-Post: Igor Chirikov
Reaktion des Autors auf die Berichterstattung der Studie durch das Wall Street Journal. Der Punkt, wie sich die Noten als Signal für Rekrutierung und Bewertung verändern, wurde überprüft.
https://www.linkedin.com/posts/igor-chirikov_a-grades-are-suddenly-everywhere-since-activity-7460733177150754816-IpAz

LinkedIn-Post: Emma Cummings / William Garrity
Beispiel für Reaktionen in sozialen Netzwerken. Die Diskussion, dass die Fähigkeit zur Nutzung von KI und das Lernen nicht verwechselt werden dürfen und dass die Bewertungsmethoden überdacht werden sollten, wurde referenziert.
https://www.linkedin.com/posts/emma-g-c_a-grades-are-suddenly-everywhere-since-activity-7462192795160588290-3WXn

LinkedIn-Post: Eric Menna
Reaktion, dass KI die Schwächen traditioneller Aufgaben sichtbar macht und zu einer Umstellung auf mündliche Prüfungen, dialogbasierte Bewertungen und projektbasierte Bewertungen anregt, wurde referenziert.
https://www.linkedin.com/posts/eric-menna_ai-is-making-skepticism-about-higher-ed-even-activity-7458183195553857536-1eyK

Harvard Magazine „The True Cost of Grade Inflation at Harvard“
Im Kontext der seit langem anhaltenden Noteninflation an US-Universitäten wurde die Zunahme der A-Bewertungen an Harvard überprüft.
https://www.harvardmagazine.com/university-news/harvard-grade-inflation-faculty-marks

Yale „Report of the Committee on Trust in Higher Education“
Der Kontext des Vertrauensproblems im gesamten US-Hochschulwesen, dass die Noten ihre Funktion, den Lerninhalt zu vermitteln, verlieren, wurde überprüft.
https://president.yale.edu/sites/default/files/2026-04/Report