skip_to_content
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 로고
  • 전체 기사
  • 🗒️ 회원가입
  • 🔑 로그인
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 개인정보처리방침 cookie_banner_and 쿠키 정책 cookie_banner_more_info

쿠키 설정

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

생성 AI 가정교사의 함정: 오류 검출률 15%가 나타내는 '학력 저하'의 현실

생성 AI 가정교사의 함정: 오류 검출률 15%가 나타내는 '학력 저하'의 현실

2025年11月22日 12:49

「AI선생님」은 어디까지 신뢰할 수 있을까?

――생성 AI 챗봇 교육의 “약속”과 “함정”

대학에서도 기업 연수에서도, "모르는 것은 일단 ChatGPT에 물어보자"가 완전히 일상이 되었습니다.
그런 가운데, "AI 가정교사"를 진지하게 수업에 도입하려는 움직임도 전 세계적으로 가속화되고 있습니다.


하지만, Stevens 공과대학 등의 팀이 실시한 최신 연구는, 이 꿈같은 “AI선생님”에 대해 상당히 냉정한 현실을 제시했습니다.


「학습자는 챗봇의 오답 중 평균적으로 15% 정도만 정확히 알아챌 수 있었다」──게다가 그 오류에 끌려가면서 테스트의 정답률이 크게 떨어진다는 것입니다.피지.org



연구의 대략적인 개요:

「일부러 틀리는 AI선생님」과 177명의 학습자

연구팀은,초보자용 통계학을 가르치는 챗봇을 준비하고, 실제 온라인 학습 플랫폼과 유사한 환경을 재현했습니다.피지.org

  • 대상: 대학생과 성인 학습자, 총 177명

  • 학습 내용: 통계학의 기초

  • 환경:

    • 챗봇에 자유롭게 질문

    • 온라인 교과서나 검색 엔진도 동시에 이용 가능 (=「오픈북」 상태)

    • 봇의 답변 아래에 「문제 보고 버튼」을 설치하고,오류를 발견하고 보고하면 소액의 보상


하지만, 이 봇에는 **연구팀이 미리 넣어둔 “일부러 틀리는 답변”**이 섞여 있었습니다.
예를 들어, 통계의 정의를 조금 잘못 이해시키거나, 계산 결과를 일부러 틀리게 하는 등──학습 내용에 제대로 관련된, 그러나 확실히 잘못된 정보입니다.피지.org


참가자의 역할은 간단합니다.

「AI선생님을 사용하면서 문제를 풀고, 만약 답변에 이상한 점을 발견하면 보고한다」

이 정도의 조건이 갖춰져 있어도, 결과는 상당히 엄격했습니다.



충격적인 숫자:

오류 검출률 15%, 학습 성적은 절반 이하로

1. 오류를 알아챌 확률은 겨우 15% 정도

「뭔가 이상하다?」라고 생각하면 보고하면 돈을 받을 수 있다.
교과서도 검색 엔진도 자유롭게 사용할 수 있다.
그럼에도 불구하고학습자가 챗봇의 오답을 정확히 보고할 수 있었던 것은, 전체적으로 평균 15% 정도에 그쳤습니다.


즉,10번 중 8~9번은 그대로 믿어버린셈이 됩니다.


2. 성적에 대한 영향은 “심각한” 수준

더욱 심각한 것은,학습 결과 자체에 대한 영향입니다.

  • 잘못된 답변을 접한 그룹
    → 연습 문제의 정답률:25~30%

  • 오류 없는 봇을 사용한 그룹 (컨트롤)
    → 동일한 문제의 정답률:60~66%

거의테스트 점수가 「절반」이 되는수준의 차이가 나타났습니다.


「조금 틀렸더라도, 전체적으로는 도움이 되겠지?」
──그런 낙관적인 기대는, 이 실험 결과를 보면 상당히 위험하다고 말하지 않을 수 없습니다.



누가 더 「취약한 학습자」인가

연구팀은,어떤 학습자가 챗봇의 오류에 취약한가도 분석하고 있습니다.


특히 영향이 컸던 것은:

  • 대상 분야의 전제 지식이 적은 사람

  • 챗봇 사용 경험이 적은 사람

  • 비원어민 영어 화자

  • 여성 참가자 (성적 하락이 상대적으로 큰 경향)

또한, 「봇을 얼마나 신뢰하는가」도 중요했습니다.
챗봇을 별로 신뢰하지 않는 참가자의 경우, 오류를 정확히 보고할 확률이 높았습니다.


반대로 말하면,

「AI가 나보다 똑똑할 것이다」
「이렇게 유창하게 설명해 주니까 틀림없이 맞을 것이다」

라고 강하게 생각할수록,오류를 지나치기 쉬운, 라는 아이러니한 구조입니다.



SNS에서는 어떻게 받아들여지고 있는가

이 기사는 공개된 지 얼마 되지 않아, Phys.org와 Stevens 공과대학의 공식 발신이, X (구 Twitter)와 Facebook에서 공유되기 시작하는 단계입니다.Facebook


동종의 「AI와 교육」에 관한 연구·뉴스에 대한 지금까지의 온라인 상의 논의를 바탕으로 하면, 이번 결과에 대한 반응은 대체로 다음의 3가지 패턴으로 나뉩니다.dsgains.pitt.edu


1. 교육 현장에서의 「역시 그렇군」파

교원이나 교육 연구자들 사이에서는,

  • 「그래서 “AI에 맡기는 수업”은 위험하다고 말해왔다」

  • 「오답 검출률 15%는, 현장 감각으로도 납득」

  • 「AI 리터러시 교육을 먼저 하지 않으면, 본체 서비스를 도입해도 역효과가 난다」

와 같은 톤의 코멘트가 두드러집니다.
이미 ChatGPT를 과제 지원에 사용하고 있는 교원일수록, 「학생의 답안에 AI의 오류가 그대로 반영되어 있다」는 경험을 하고 있기 때문에, 이 연구가 “정량적인 뒷받침”이 되었다는 받아들임입니다.


2. AI 추진파의 「그래서 사용법이 중요」파

한편, AI 활용에 긍정적인 엔지니어나 EdTech 계열에서는,

  • 「어떤 도구에도 오차는 있다. 중요한 것은 “오차를 전제로 한 설계”」

  • 「인간의 강의도 오류가 있다. AI만을 비난하는 것은 불공평」

와 같은 목소리도 보입니다.


이 입장의 사람들은, **「금지할 것인가/전면 도입할 것인가」가 아니라, 「어떤 장면에서, 어떻게 제한적으로 사용할 것인가」**라는 설계의 논의에 관심을 기울이고 있습니다.


3. 학습자의 본심: 「어디까지 믿어야 할까?」

학생·사회인 학습자 측에서는,

  • 「결국, AI를 어느 정도 신뢰해야 하는지, 누군가 기준을 제시해 주었으면 좋겠다」

  • 「검색보다 빠르니까, 다소 위험이 있어도 사용하게 된다」

라는 “흔들리는 본심”이 드러납니다.
특히, 「자신의 이해가 맞는지 확인」으로 AI를 사용하고 있는 사람에게는,
그 AI 자체가 실수를 하고 있어도 알아차리기 어렵다는 이번 결과는, 상당히 불안을 유발하는 것입니다.



무엇이 그렇게 어려운가:

「검증하는 힘」과 「AI의 화술」

이 연구나 관련 논문을 읽으면, 문제의 근본은 크게 두 가지로 정리할 수 있습니다.sundaram.cs.illinois.edu


1. 초보자에게는 「검증」 자체가 어렵다

  • 분야 지식이 거의 없는 상태에서

  • 또한, 전문적인 내용에 대해

  • 유창하게 설명하는 AI의 답변

을 「정확한지 여부」 판단하는 것은, 애초에 상당히 높은 장벽이 있는 행위입니다.

많은 참가자는,

  • 「자신의 지식과 모순되지 않으니 OK」

  • 「제대로 된 수식이나 전문 용어가 나오니까 괜찮겠지」

와 같은 **“어느 정도의 감각” 기반**으로 판단하고 있었습니다.


하지만 초보자는, 그 「자신의 지식」 자체가 불확실합니다.
결과적으로,

← 기사 목록으로 돌아가기

문의하기 |  이용약관 |  개인정보처리방침 |  쿠키 정책 |  쿠키 설정

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.