AI에 의한 성적 혁명? 대학 성적표에 이상, ChatGPT가 바꾼 "평가의 신뢰성"

AI에 의한 성적 혁명? 대학 성적표에 이상, ChatGPT가 바꾼 "평가의 신뢰성"

ChatGPT 이후, 대학의 "A평가"는 무엇을 의미하는가

대학 성적표에 나란히 있는 "A"는 오랫동안 우수함의 증명이었다. 학생에게는 대학원 진학이나 취업 활동에서의 무기였고, 대학에게는 교육 성과를 나타내는 숫자였으며, 기업에게는 지원자를 선별하기 위한 편리한 지표였다.

그러나 생성 AI가 학생의 책상 위에 상주하게 된 지금, 그 "A"가 무엇을 의미하는지가 흔들리기 시작하고 있다. 높은 평가는 정말로 학생 본인의 이해나 사고력을 나타내는 것인가. 아니면, AI가 정리한 문장, AI가 작성한 코드, AI가 다듬은 제출물을 교원이 평가하고 있는 것인가.

독일의 테크 매체 Blogspan이 소개한 UC 버클리의 연구는 이 문제를 꽤 구체적인 숫자로 제시하고 있다. 연구 대상은 미국 텍사스주의 대규모 공립 연구 대학에서 진행된 수업의 성적 데이터이다. 분석된 것은 2018년부터 2025년까지의 가을 학기, 319개 코스, 84개 학과, 학생의 수강 단위 기준으로 50만 건을 초과하는 성적 기록이다.

연구의 초점은, ChatGPT가 일반 공개된 2022년 11월 이후, 대학의 성적 분포가 어떻게 변했는가에 있다. 단순히 "최근의 학생들은 성적이 좋아졌다"라고 보는 것이 아니라, 연구자는 수업별 과제 내용에 주목했다. 생성 AI가 잘하는 작문, 리포트, 프로그래밍 과제가 많은 수업과, 구두 발표나 실기, 대면 시험 등 AI가 대행하기 어려운 수업을 나누어, ChatGPT 등장 전후로 성적의 변화를 비교했다.

그 결과, AI가 사용되기 쉬운 과제를 많이 포함한 수업에서는, A평가의 비율이 13포인트 상승했다. 이는 2022년 시점의 수준과 비교하여 약 30%의 증가에 해당한다. 평균 GPA도 0.12포인트 올라 성적 분포는 상위에 압축되었다. 즉, 전체가 고르게 조금씩 좋아진 것보다는, A마이너스나 B플러스였던 층이 A로 끌어올려지는 변화가 일어났다.

여기서 중요한 것은, 연구가 "AI를 사용한 학생은 모두 부정행위를 하고 있다"고 단정하고 있는 것이 아니라는 점이다. 생성 AI는, 문장의 구성을 정리하고, 아이디어를 확장하며, 코드의 오류를 찾아내고, 참고 문헌의 읽는 방법을 돕는 등, 학습을 지원하는 도구가 될 수 있다. 문제는, 지원과 대체의 경계가 보이지 않는 것에 있다.

예를 들어, 학생이 스스로 생각한 논점을 AI에게 정리하게 하고, 그것을 바탕으로 재고한다면, AI는 학습을 보조하고 있다고 할 수 있다. 반면에, 과제문을 붙여넣고, 출력된 문장을 거의 그대로 제출한다면, 평가되고 있는 것은 학생의 이해가 아니라 AI의 출력 품질에 가깝다. 이번 연구가 중시한 것은, 이 후자의 가능성이다.

그 실마리가 된 것은, 숙제나 가져오기 과제의 비중이다. 만약 성적 상승이 정말로 학생의 이해력 향상에 의한 것이라면, 숙제 중심의 수업뿐만 아니라, 시험이나 대면 평가에서도 똑같이 성적이 올라야 한다. 그러나 실제로는, 성적 상승은 숙제나 가져오기 과제의 비중이 높은 수업에 강하게 집중되어 있었다. 교원이 학생의 작업 과정을 직접 볼 수 없는 장소에서, AI가 학생을 대신해 일을 하고 있을 가능성이 높다는 것이다.

더욱이, AI가 별로 도움이 되지 않는 구두 발표의 비율을 사용한 검증에서는, 같은 성적 상승이 확인되지 않았다. 이것도, 단순한 시대 변화나 학생 전체의 우수화로는 설명하기 어렵다. 연구자는, 생성 AI가 "성적을 올리지만, 반드시 능력을 올리지 않는" 새로운 유형의 성적 인플레이션을 낳고 있을 가능성을 지적하고 있다.

물론, 대학의 성적 인플레이션 자체는 새로운 이야기가 아니다. 미국의 명문 대학에서는, 이전부터 A평가의 비율이 계속 증가해 왔다. 학생 만족도, 수업 평가, 대학 간 경쟁, 취업 시장에 대한 배려 등, 교원이나 대학이 성적을 엄격하게 매기기 어려워지는 구조는 이전부터 존재해 왔다.

그러나, AI에 의한 성적 인플레이션은 기존의 문제와 성질이 다르다. 기존의 성적 인플레이션은, 주로 교원 측의 채점 기준이나 대학 측의 제도에 의해 일어나는 것이었다. 그러나 생성 AI는, 채점되기 전의 제출물 자체를 바꿔버린다. 교원이 기준을 바꾸지 않아도, 학생이 제출하는 리포트나 코드의 완성도만이 높아진다. 겉모습은 훌륭해지고, 평가는 올라간다. 그러나, 그 뒤에 있는 사고나 시행착오가 학생 본인의 것인지 여부는 알 수 없다.

이 점은, SNS나 전문가 커뮤니티에서도 강하게 반응되고 있다. LinkedIn에서는, 교육 관계자나 기업인을 중심으로 "놀랍지 않다"는 반응이 두드러진다. 생성 AI가 널리 사용 가능해지면, 리포트나 프로그래밍 과제의 완성도가 올라가는 것은 당연하다는 반응이다. 한편으로, 문제는 부정 그 자체보다도, 대학이 무엇을 평가하고 있는지 알 수 없게 되었다는 목소리도 많다.

특히 인상적인 것은, "AI 유창성도 중요하지만, 학습도 중요하다. 양자를 혼동해서는 안 된다"는 취지의 반응이다. 이는 AI 시대의 교육을 생각하는 데 있어 매우 중요한 시점이다. AI를 사용할 수 있는 것은, 앞으로의 사회에서 확실히 필요한 능력이 된다. 그러나, AI를 사용하여 성과물을 정리하는 능력과, 대상을 깊이 이해하고, 자신의 말로 설명하며, 미지의 문제에 대응하는 능력은 동일하지 않다.

SNS 상에서는, 대학은 AI를 금지하는 것만으로는 충분하지 않다는 의견도 두드러진다. AI 탐지 도구로 학생을 단속하고, 리포트를 모두 손으로 다시 쓰게 하며, 시험을 모두 감독하에 치르게 하는 등의 대응은 일견 이해하기 쉽다. 그러나, 현실적으로 AI의 사용을 완전히 배제하는 것은 어렵다. 더욱이, AI를 전혀 사용하지 않는 교육이, 사회에 나간 후의 실무 능력을 기르는 것도 아니다.

그래서 부상하고 있는 것이, 평가 설계 자체를 바꿔야 한다는 논의이다. 예를 들어, 제출물뿐만 아니라 작업 과정을 평가한다. 학생에게, 어느 단계에서 AI를 사용했는지, AI의 제안을 어떻게 검토하고, 어디를 채택하고, 어디를 수정했는지를 설명하게 한다. 리포트 제출 후에 짧은 구두 시험을 실시하여, 자신의 논점을 그 자리에서 설명하게 한다. 코드 과제라면, 완성된 프로그램뿐만 아니라, 설계 판단이나 오류 대응의 이력을 묻는다. 이러한 방법이라면, AI를 사용했는지 여부보다도, 학생이 그 성과물을 정말로 이해하고 있는지를 보기 쉬워진다.

교육 현장에서 가장 피해야 할 것은, "AI를 사용하면 부정", "사용하지 않으면 올바르다"는 단순한 이분법에 도망치는 것이다. 왜냐하면, 학생은 이미 AI를 사용하고 있기 때문이다. 사용하고 있는 현실을 전제로, 어디까지가 허용되고, 어디부터가 대체 행위인지 명문화하지 않으면, 학생도 교원도 판단할 수 없다.

예를 들어, 문장의 오타 검사는 허용하지만, 논지의 생성은 불가로 한다. 아이디어 발상에는 사용할 수 있지만, 최종적인 주장과 구성은 스스로 만든다. 프로그래밍에서는 디버그 지원은 인정하지만, 주요 알고리즘 설계를 전적으로 맡겨서는 안 된다. 이러한 규칙은 수업마다 다를 것이며, 그렇기 때문에 강의 계획서나 과제 설명에서 구체화할 필요가 있다.

이 문제는 대학에만 국한되지 않는다. 기업의 채용에도 영향을 미친다. GPA나 성적표가, 학생 본인의 능력이 아니라 AI로 정리한 성과물의 평가를 반영하게 되면, 기업은 성적을 신뢰하기 어려워진다. 그러면, 면접, 실기 시험, 포트폴리오, 인턴에서의 실적 등, 다른 평가 수단이 더 중시될 것이다.

학생에게도, 이는 단순히 "편하게 높은 점수를 받을 수 있는" 이야기가 아니다. AI가 대신 생각해주는 환경에 너무 익숙해지면, 스스로 고민하고, 실패하고, 수정하는 경험이 얕아진다. 학습에는 어느 정도의 고생이 필요하다. 이해되지 않는 문장을 해독하고, 작동하지 않는 코드와 싸우며, 잘 설명할 수 없는 생각을 말로 표현하는 것. 그러한 과정이야말로, 지식을 자신의 것으로 만든다.

생성 AI는, 그 고생을 단축할 수 있다. 단축할 수 있는 것 자체는 나쁜 것이 아니다. 그러나, 모든 고생을 생략해버리면, 성적만 남고, 능력은 자라지 않는다. 이번 연구가 보여주고 있는 것은, 바로 그 위험성이다. 대학의 성적표는 깔끔해지고 있다. 그러나, 그 깔끔함이 학습의 깊어짐을 의미하는 것은 아니다.

일본의 대학이나 전문학교, 고등학교에도, 이 논의는 무관하지 않다. 리포트 과제, 소논문, 프로그래밍 연습, 탐구 학습, 프레젠테이션 자료 작성 등, 생성 AI가 개입할 수 있는 장면은 이미 많다. 일본어로의 출력 품질도 급속히 향상되고 있어, 앞으로는 "학생이 쓴 것처럼 보이는 문장"과 "AI가 정리한 문장"의 구별은 더욱 어려워질 것이다.

그렇기 때문에, 교육 기관은 일찍 평가의 사고방식을 바꿀 필요가 있다. 완성품만을 채점하는 것이 아니라, 프로세스, 설명력, 응용력, 대화 속에서의 이해를 평가한다. AI의 사용을 숨기게 하는 것이 아니라, 사용 방법을 기록하게 한다. AI가 제시한 답을 의심하고, 검증하고, 필요하다면 거부하는 힘을 기른다. 이러한 것들은, AI 시대의 새로운 학력 그 자체이기도 하다.

결국, 묻고 있는 것은 "학생이 AI를 사용했는가"뿐만이 아니다. "대학은 무엇을 학력이라고 부르는가", "성적은 무엇을 증명하는가", "사회는 어떤 능력을 신뢰하는가"라는, 보다 근본적인 문제이다.

ChatGPT 이후의 대학에서는, A평가의 수가 늘어났다고 해서, 교육이 성공했다고 단언할 수 없다. 오히려, A가 늘어나면 늘어날수록, 그 A가 무엇을 측정하고 있는지를 엄격히 다시 물어볼 필요가 있다. AI를 잘 다루는 능력은 중요하다. 그러나, AI에 의해 대행된 성과물을, 본인의 이해와 혼동해서는 안 된다.

대학의 평가는, 지금 큰 분기점에 서 있다. AI를 금지하고 과거로 돌아가려는 것인가. AI를 방치하고 성적의 의미를 공허하게 만드는 것인가. 아니면, AI를 전제로 하면서, 학생 본인의 사고가 보이는 평가로 다시 만드는 것인가.

"A"가 정말로 우수함을 나타내는 기호로 계속되기 위해서는, 성적의 부여 방식 자체를, AI 시대에 맞춰 재설계할 수밖에 없다.


출처 URL

Blogspan「Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand」
기사의 출발점. UC 버클리의 연구를 바탕으로, ChatGPT 이후의 대학 성적 인플레이션을 소개하고 있다.
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education「Artificial Intelligence and Grade Inflation」
연구의 공식 소개 페이지. 저자, 발표일, 연구 개요, A평가 13포인트 상승 등의 요지를 확인했다.
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov「Artificial Intelligence and Grade Inflation」PDF
원래의 워킹 페이퍼. 분석 대상, 연구 방법, 성적 분포, 숙제 비중과의 관계, 구두 발표를 사용한 검증 등의 세부 사항을 확인했다.
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder「AI is inflating student grades, and the effect points to outsourced work, not better learning」
연구 결과의 영어권 해설 기사. AI가 학습을 개선한 것이 아니라, 과제 작업을 대체하고 있는 가능성이라는 논점을 확인했다.
https://the-decoder.com/ai-is-inflating-student-grades-and-the-effect-points-to-outsourced-work-not-better-learning/

Axios「ChatGPT fuels boom of A grades in schools」
연구자 코멘트, 숙제 비중, AI 통합형 과제나 사용 기록의 필요성에 관한 보도를 확인했다.
https://www.axios.com/local/colorado-springs/2026/06/18/ai-grade-inflation-college

LinkedIn 게시물: Igor Chirikov
Wall Street Journal에 의한 연구 보도에 대한 저자 본인의 반응. 성적이 채용·평가 신호로서 어떻게 변화하는가라는 논점을 확인했다.
https://www.linkedin.com/posts/igor-chirikov_a-grades-are-suddenly-everywhere-since-activity-7460733177150754816-IpAz

LinkedIn 게시물: Emma Cummings / William Garrity
SNS 상의 반응 예. AI 활용력과 학습을 혼동해서는 안 되며, 평가 방법을 재고해야 한다는 논의를 참조했다.
https://www.linkedin.com/posts/emma-g-c_a-grades-are-suddenly-everywhere-since-activity-7462192795160588290-3WXn

LinkedIn 게시물: Eric Menna
AI가 기존 과제의 약점을 가시화하고, 구두 시험이나 대화형 평가, 프로젝트형 평가로의 전환을 촉구한다는 반응을 참조했다.
https://