¿Revolución en las calificaciones por la IA? Cambios en los informes de calificaciones universitarias, ChatGPT ha transformado la "fiabilidad de la evaluación"

¿Revolución en las calificaciones por la IA? Cambios en los informes de calificaciones universitarias, ChatGPT ha transformado la "fiabilidad de la evaluación"

¿Qué significa una "calificación A" en la universidad después de ChatGPT?

Durante mucho tiempo, la "A" en el expediente académico universitario ha sido un símbolo de excelencia. Para los estudiantes, es una herramienta valiosa para la admisión a programas de posgrado o en la búsqueda de empleo; para las universidades, es un indicador de los resultados educativos; y para las empresas, es un criterio conveniente para filtrar candidatos.

Sin embargo, ahora que la IA generativa se ha convertido en un elemento constante en los escritorios de los estudiantes, el significado de esa "A" está comenzando a tambalearse. ¿Realmente refleja la comprensión y capacidad de pensamiento del estudiante? ¿O simplemente está evaluando textos elaborados por IA, códigos escritos por IA, o trabajos pulidos por IA?

Un estudio de UC Berkeley, presentado por el medio tecnológico alemán Blogspan, aborda este problema con cifras bastante concretas. El estudio se centra en los datos de calificaciones de cursos en una gran universidad pública de investigación en Texas, EE.UU. Se analizaron más de 500,000 registros de calificaciones de 319 cursos y 84 disciplinas, desde el semestre de otoño de 2018 hasta 2025.

El enfoque del estudio está en cómo ha cambiado la distribución de calificaciones universitarias desde la liberación pública de ChatGPT en noviembre de 2022. En lugar de simplemente concluir que "los estudiantes recientes tienen mejores calificaciones", los investigadores se centraron en el contenido de las tareas de cada curso. Compararon cursos con muchas tareas de redacción, informes y programación, en las que la IA es competente, con aquellos que incluyen presentaciones orales, prácticas y exámenes presenciales, menos susceptibles de ser realizados por IA.

El resultado mostró que en los cursos con muchas tareas propensas al uso de IA, el porcentaje de calificaciones A aumentó en 13 puntos, lo que representa un incremento del 30% en comparación con los niveles de 2022. El GPA promedio también subió 0.12 puntos, comprimiendo la distribución de calificaciones hacia el extremo superior. Esto indica que, en lugar de una mejora generalizada, los estudiantes que antes obtenían A- o B+ ahora están siendo empujados hacia la A.

Es importante destacar que el estudio no concluye que "todos los estudiantes que usan IA están haciendo trampa". La IA generativa puede ser una herramienta de apoyo en el aprendizaje, ayudando a estructurar textos, expandir ideas, encontrar errores en el código y guiar la lectura de referencias. El problema radica en la difusa línea entre apoyo y sustitución.

Por ejemplo, si un estudiante organiza sus propios argumentos con la ayuda de la IA y luego los reconsidera, se puede decir que la IA está complementando el aprendizaje. Sin embargo, si simplemente copia y pega el texto de la tarea y presenta el resultado generado por la IA, lo que se está evaluando es más la calidad de la salida de la IA que la comprensión del estudiante. El estudio se centra en esta última posibilidad.

Una pista clave fue el peso de las tareas para llevar a casa. Si el aumento de calificaciones realmente reflejara una mejora en la comprensión del estudiante, las calificaciones deberían mejorar de manera similar en cursos centrados en exámenes y evaluaciones presenciales. Sin embargo, el aumento de calificaciones se concentró en cursos con un alto peso en tareas para llevar a casa, donde los profesores no pueden observar directamente el proceso de trabajo de los estudiantes, sugiriendo que la IA podría estar haciendo el trabajo en su lugar.

Además, en la verificación utilizando el porcentaje de presentaciones orales, donde la IA es menos útil, no se observó un aumento similar en las calificaciones. Esto es difícil de explicar solo como un cambio de época o una mejora general de los estudiantes. Los investigadores sugieren que la IA generativa podría estar creando un nuevo tipo de inflación de calificaciones que "aumenta las calificaciones, pero no necesariamente las habilidades".

Por supuesto, la inflación de calificaciones en las universidades no es un fenómeno nuevo. En las universidades de élite de EE.UU., la proporción de calificaciones A ha estado aumentando durante mucho tiempo. Factores como la satisfacción estudiantil, las evaluaciones de cursos, la competencia entre universidades y las consideraciones del mercado laboral han dificultado que los profesores y universidades sean estrictos en la evaluación.

Sin embargo, la inflación de calificaciones impulsada por la IA es diferente en naturaleza a los problemas tradicionales. La inflación de calificaciones tradicional se debe principalmente a los criterios de evaluación de los profesores o a las políticas institucionales. Pero la IA generativa cambia el trabajo presentado antes de ser evaluado. Incluso si los profesores no cambian sus estándares, solo la calidad del trabajo presentado por los estudiantes mejora. La apariencia mejora y la evaluación sube, pero no está claro si el pensamiento y la experimentación detrás del trabajo son realmente del estudiante.

Este punto ha provocado fuertes reacciones en las redes sociales y comunidades de expertos. En LinkedIn, la percepción predominante entre educadores y profesionales es que "no es sorprendente". Es natural que la calidad de los informes y tareas de programación mejore con el uso generalizado de la IA. Sin embargo, muchos opinan que el problema no es tanto el fraude en sí, sino que se ha vuelto incierto qué es lo que las universidades están evaluando realmente.

Una reacción particularmente notable es la que sostiene que "la fluidez en IA es importante, pero también lo es el aprendizaje. No debemos confundir ambos". Este es un punto de vista crucial al considerar la educación en la era de la IA. La capacidad de usar IA será una habilidad necesaria en la sociedad futura. Sin embargo, la habilidad de usar IA para perfeccionar productos finales no es lo mismo que comprender profundamente un tema, explicarlo con tus propias palabras y abordar problemas desconocidos.

En las redes sociales, también se destaca la opinión de que no es suficiente que las universidades simplemente prohíban la IA. Medidas como el uso de herramientas de detección de IA para controlar a los estudiantes, volver a los informes escritos a mano o supervisar todos los exámenes pueden parecer soluciones claras. Sin embargo, en la práctica, es difícil eliminar completamente el uso de la IA. Además, una educación que prohíba completamente el uso de la IA no necesariamente desarrollará habilidades prácticas para el mundo laboral.

Por lo tanto, está surgiendo el debate sobre la necesidad de cambiar el diseño de la evaluación en sí. Por ejemplo, evaluar no solo el producto final, sino también el proceso de trabajo. Hacer que los estudiantes expliquen en qué etapa usaron la IA, cómo evaluaron las sugerencias de la IA, qué adoptaron y qué modificaron. Realizar una breve entrevista oral después de la entrega del informe para que expliquen sus argumentos en el momento. En tareas de programación, preguntar no solo por el programa finalizado, sino también por las decisiones de diseño y el historial de manejo de errores. Estos métodos permiten evaluar más fácilmente si el estudiante realmente comprende el producto final, más allá de si usó IA o no.

Lo que se debe evitar en el ámbito educativo es caer en una dicotomía simplista de "usar IA es hacer trampa" y "no usarla es correcto". Esto se debe a que los estudiantes ya están usando IA. Basándose en esta realidad, es necesario clarificar hasta dónde es aceptable y a partir de dónde se considera sustitución, para que tanto estudiantes como profesores puedan tomar decisiones informadas.

Por ejemplo, permitir la revisión de errores tipográficos en textos, pero no la generación de argumentos. Permitir el uso de IA para generar ideas, pero exigir que la afirmación final y la estructura sean propias. En programación, permitir la ayuda en la depuración, pero no delegar completamente el diseño de algoritmos principales. Estas reglas deben variar según el curso, por lo que es necesario especificarlas en el plan de estudios y en la descripción de las tareas.

Este problema no se limita a las universidades. También afecta la contratación en las empresas. Si el GPA y las calificaciones reflejan la evaluación de productos finales elaborados por IA en lugar de la capacidad del estudiante, las empresas tendrán menos confianza en las calificaciones. En consecuencia, se dará más importancia a entrevistas, exámenes prácticos, portafolios y logros en prácticas.

Para los estudiantes, esto no es solo una cuestión de "obtener buenas calificaciones fácilmente". Si se acostumbran demasiado a un entorno donde la IA piensa por ellos, tendrán menos experiencia en enfrentar problemas, cometer errores y corregirlos por sí mismos. El aprendizaje requiere cierto grado de esfuerzo. Desentrañar textos difíciles, luchar con códigos que no funcionan, y poner en palabras ideas que no se pueden explicar bien. Estos procesos son los que realmente permiten apropiarse del conocimiento.

La IA generativa puede acortar ese esfuerzo. Acortar el esfuerzo en sí no es malo. Pero si se elimina todo el esfuerzo, solo quedarán las calificaciones, y no se desarrollarán las habilidades. Este es precisamente el peligro que señala el estudio. Los expedientes académicos universitarios se ven más pulidos. Sin embargo, esa pulcritud no necesariamente significa un aprendizaje más profundo.

Esta discusión no es irrelevante para las universidades, colegios técnicos y escuelas secundarias en Japón. Ya hay muchas situaciones en las que la IA generativa puede intervenir, como tareas de informes, ensayos, ejercicios de programación, aprendizaje por investigación y preparación de materiales para presentaciones. La calidad de salida en japonés también está mejorando rápidamente, y en el futuro será aún más difícil distinguir entre "texto escrito por un estudiante" y "texto elaborado por IA".

Por eso, las instituciones educativas deben cambiar pronto su enfoque de evaluación. En lugar de calificar solo el producto final, deben evaluar el proceso, la capacidad de explicación, la capacidad de aplicación y la comprensión en el diálogo. No deben ocultar el uso de IA, sino registrar cómo se utiliza. Fomentar la capacidad de cuestionar, verificar y rechazar las respuestas generadas por IA si es necesario. Estas son, en sí mismas, nuevas habilidades académicas para la era de la IA.

Al final, la cuestión no es solo "si los estudiantes usaron IA". Es un problema más fundamental de "qué consideran las universidades como habilidades académicas", "qué prueban las calificaciones" y "qué habilidades confía la sociedad".

En las universidades después de ChatGPT, no se puede afirmar que la educación es exitosa solo porque ha aumentado el número de calificaciones A. De hecho, cuanto más aumentan las A, más necesario es cuestionar rigurosamente qué están midiendo esas A. La habilidad para manejar IA es importante. Sin embargo, no se debe confundir un producto final realizado por IA con la comprensión del estudiante.

La evaluación universitaria se encuentra en un punto de inflexión importante. ¿Prohibirán la IA y tratarán de volver al pasado? ¿Dejarán la IA sin control y permitirán que el significado de las calificaciones se vacíe? ¿O reformarán la evaluación para que refleje el pensamiento del estudiante, teniendo en cuenta la IA?

Para que la "A" siga siendo un símbolo de verdadera excelencia, no queda más remedio que rediseñar el sistema de calificación para adaptarlo a la era de la IA.


Fuente URL

Blogspan「Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand」
Punto de partida del artículo. Basado en un estudio de UC Berkeley, se presenta la inflación de calificaciones universitarias después de ChatGPT.
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education「Artificial Intelligence and Grade Inflation」
Página oficial de presentación del estudio. Se verificaron autores, fecha de publicación, resumen del estudio y el aumento de 13 puntos en las calificaciones A.
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov「Artificial Intelligence and Grade Inflation」PDF
Documento de trabajo original. Se verificaron detalles sobre el objeto de análisis, métodos de investigación, distribución de calificaciones, relación con el peso de las tareas y verificación con presentaciones orales.
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder「AI is inflating student grades, and the effect points to outsourced work, not better learning」
Artículo explicativo en inglés sobre los resultados del estudio. Se verificó el argumento de que la IA podría estar sustituyendo el trabajo en lugar de mejorar el aprendizaje.
https://the-decoder.com/ai-is-inflating-student-grades-and-the-effect-points-to-outsourced-work-not-better-learning/

Axios「ChatGPT fuels boom of A grades in schools」
Se verificaron comentarios de investigadores, el peso de las tareas, y la necesidad de tareas integradas con IA y registros de uso.
https://www.axios.com/local/colorado-springs/2026/06/18/ai-grade-inflation-college

Publicación en LinkedIn: Igor Chirikov
Reacción del autor a la cobertura del estudio por parte de Wall Street Journal. Se verificó el argumento sobre cómo las calificaciones cambiarán como señal de contratación y evaluación.
https://www.linkedin.com/posts/igor-chirikov_a-grades-are-suddenly-everywhere-since-activity-7460733177150754816-IpAz

Publicación en LinkedIn: Emma Cummings / William Garrity
Ejemplo de reacción en redes sociales. Se discutió la importancia de no confundir la habilidad de usar IA con el aprendizaje y la necesidad de repensar los métodos de evaluación.
https://www.linkedin.com/posts/emma-g-c_a-grades-are-suddenly-everywhere-since-activity-7462192795160588290-3WXn

Publicación en LinkedIn: Eric Menna
Se hizo referencia a la reacción de que la IA está haciendo visibles las debilidades de las tareas tradicionales y promoviendo un cambio hacia evaluaciones orales, interactivas y basadas en proyectos.
https://www.linkedin.com/posts/eric-menna_ai-is-making-skepticism-about-higher-ed-even-activity-7458183195553857536-1eyK

Harvard Magazine「The True Cost of Grade Inflation at Harvard」
Se verificó el contexto del aumento de calificaciones A en Harvard como parte del trasfondo de la inflación de calificaciones en universidades estadounidenses antes de la IA.
https://www.harvardmagazine.com/university-news/harvard-grade-inflation-faculty-marks

Yale「Report of the Committee on Trust in Higher Education」
Se verificó el contexto del problema de confianza en la educación superior en EE.UU., donde las calificaciones están perdiendo su función de comunicar el contenido del aprendizaje.
https://president.yale.edu/sites/default/files/2026-04/Report-of-the-Committee-on-Trust-in-Higher-Education.pdf