샘 알트먼, GPT-5의 과제와 4o의 부활에 대해 이야기하다: 벤치는 최강, 경험은 미완성? GPT-5 발표회의 "Chart Crime"과 신뢰의 비용

2025年08月10日 11:51

1. 무슨 일이 일어났나? 48시간의 타임라인

8월 7일(미국 시간), OpenAI는 새로운 플래그십 "GPT-5"를 발표했습니다. 빠른 응답 시스템과 "생각하는" 시스템을 백그라운드에서 전환하는 실시간 라우터를 핵심으로 "통합 모델"로 방향을 틀었습니다. 다음 날인 8일, 샘 알트먼 CEO 등은 Reddit에서 AMA를 실시하며 "첫날 라우터에 중대한 장애(sev)가 있었고, 자동 전환이 멈춘 시간이 있었다. 그로 인해 'GPT-5가 멍청해졌다'고 느껴졌을 수 있다"고 설명했습니다. Plus의 요금 상한을 두 배로 늘리고, 어떤 모델이 답변하는지 표시를 강화할 것을 약속했습니다. 또한 "4o를 돌려달라"는 강한 요구에 대해 Plus에서의 지속 제공을 검토하겠다고 명확히 했습니다.

2. GPT-5의 목표——"모델 선택의 부담"을 없애다

공식 발표문에서 OpenAI는 GPT-5를 "하나의 통합 시스템"으로 정의했습니다. 일반적으로는 가벼운 지능형 모델, 난제는 "사고" 모델(GPT-5 Thinking/Pro)을 라우터가 자동으로 판단한다고 설명했습니다. 지시 추종 및 사실성 개선, 코드·창작·헬스 분야에서의 벤치마크 향상도 목표로 삼았습니다. 즉, 사용자에게 "어떤 모델을 선택할지" 고민하지 않게 하는 UX가 핵심입니다.OpenAI

이 설계는 대다수 사용자에게는 환영받을 만합니다. 하지만 "모델의 개성"을 구분하여 사용하던 헤비 유저에게는 선택권의 축소로 받아들여질 수 있습니다. 이번 소동은 바로 이 격차가 표면화된 것입니다.

3. "4o를 돌려달라" 현상——SNS의 실감 기반

발표 직후, Reddit의 r/ChatGPT 등에는 "GPT-5는 문장이 딱딱하다", "창작의 감각이 떨어졌다", "4o의 목소리·대화감이 그립다"는 게시물이 쇄도했습니다. "Bring back 4o", "#keep4o" 등의 호소와 서명 사이트 공유도 보였습니다. 한편으로는 "5가 더 빠르고 실무적이다", "코드는 좋아졌다"는 반응도 적지 않았습니다. 8월 9~10일에는 "Plus의 '레거시 표시'로 4o가 돌아왔다/순차적으로 전개 중인 것 같다"는 보고 스레드가 늘어나 실제로 전환할 수 있었다는 목소리도 여러 개 올라왔습니다.TechRadarReddit

미디어에서도 "4o가 돌아온다"는 보도가 나오며, 조기에 사용자 목소리에 대응한 모양새입니다. 다만 지역·플랜·앱의 반영에는 시차가 있다는 사용자 보고가 혼재하고 있습니다.Tom's Guide

4. "차트 범죄"라는 타격——시각화의 신뢰

발표회에서는, 수치와 막대의 높이가 일치하지 않는 등의 실수로 "차트 범죄(통계적으로 죄 깊은 도표)"가 화제가 되었습니다. 알트먼은 X에서 "거대한 실수"라고 인정하며, 사내에서도 사과가 나왔습니다. 공식 블로그 측의 도표는 정확했지만, 라이브 발표의 시각화 실수는 "사실성을 내세우는 제품의 홍보로서 아픈" 것이었습니다. The Verge 등이 구체적인 불일치를 검증하며, 인터넷의 비꼼도 가속화되었습니다.The Verge

이 사건은 두 가지 시사를 남깁니다. 첫째, AI 벤더의 "숫자 이야기"는 제품 자체의 신뢰와 직결됩니다. 둘째, 모델이 아무리 똑똑해도 "인간의 시각화·검증 프로세스"는 별개이며, 결국 인간이 지켜야 한다는 것입니다.

5. 그래도 "내용"은 진화하고 있는가

개발자·연구자 시점에서는, GPT-5가 지시 추종이나 코드 생성의 안정성, 장고 시의 사실성이 향상되었다는 평가가 두드러집니다. 한편, 리뷰어 사이먼 윌리슨은, 표의 자동 정렬을 모델에 맡겼더니 오류가 발생해, Python으로 다시 하게 하여 해결했다는 "약점의 실례"도 공유하고 있습니다. 즉 "만능"은 아니지만, "실패를 어떻게 회피·조합으로 보완할지"를 포함한 실무 운영의 지식이 중요해집니다.OpenAISimon Willison’s Weblog

6. OpenAI의 "대응책"과 향후 초점

AMA에서는, Plus의 요금 상한 두 배 증가, 모델 선택의 투명화, 4o의 지속 제공 검토가 제시되었습니다. 론칭 직후의 라우터 장애라는 "경험의 첫 타격"은 크지만, 전환 알고리즘이 개선되면 통합 UX의 장점이 부각될 것입니다. 문제는 "취향의 다양성"과 "통합의 간편함"을 어떻게 공존시킬 것인가입니다. 레거시 선택이나 "스타일·개성의 세밀한 커스텀"이 열쇠가 될 것입니다.

7. 사용자별·실무 팁

개인 창작자: 이야기·대화의 "온도감"을 중시한다면, 당분간은 4o(사용 가능하다면)와 5를 병행하여 비교하십시오. GPT-5에 "이 문체로", "감정을 강하게" 등 명확하게 스타일을 전달하십시오. 실패 시에는 "표로 만들어라→Python으로 표를 생성한 후 정렬하라"와 같은 도구 연계로 보험을 두십시오.RedditSimon Willison’s Weblog
개발자: 라우터에 맡기지 말고, 중요한 공정은 "사고 모드를 명시"하고, 검증 공정(형·테스트·lint)을 전제로 하십시오. 시각화는 자동 생성에 맡기지 말고, 단위·축·비율을 이중 체크하십시오.The Verge
기업 도입: 초기에는 "경험의 흔들림"을 예상하고, SLA보다 SLO로 모니터링하십시오. 모델 선택 정책을 명문화하고, 사용자에게 "현재 어떤 모델인지"의 표시와 에스컬레이션 동선(장고 강제, 인간 검증)을 설계하십시오.

8. 결론——통합의 시대에도, 선택할 수 있는 자유는 무기

GPT-5는 "많은 사람에게 사용하기 쉽게 하겠다"는 방향성을 명확히 내세웠습니다. 한편, AI 경험은 "성능"만큼이나 "취향"에 의존합니다. 이번 소동은 단순한 결함이나 시각화 실수의 이야기가 아닙니다. "통합"과 "개성"을 어떻게 양립할 것인가——AI의 대중화에 불가피한 디자인 과제가, 선명하게 드러난 사건이었습니다.

참고 기사

샘 알트먼이 "어색한" GPT-5의 전개, 4o의 복귀, 그리고 "차트 범죄"에 대해 언급
출처: https://techcrunch.com/2025/08/08/sam-altman-addresses-bumpy-gpt-5-rollout-bringing-4o-back-and-the-chart-crime/