skip_to_content
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 로고
  • 전체 기사
  • 🗒️ 회원가입
  • 🔑 로그인
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 개인정보처리방침 cookie_banner_and 쿠키 정책 cookie_banner_more_info

쿠키 설정

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

ChatGPT-5는 정말로 기대에 못 미치나요? ── 구 모델에서 할 수 없었던 것 / 타사가 아직 우세한 점을 총점검

ChatGPT-5는 정말로 기대에 못 미치나요? ── 구 모델에서 할 수 없었던 것 / 타사가 아직 우세한 점을 총점검

2025年08月12日 23:19

1. 먼저 "기대에 못 미침" 논의의 정체를 정리

  • 발표 직후부터 SNS와 미디어에서 찬반이 엇갈렸습니다. "사용자의 기대가 지나치게 높았다", "실용성은 개선되었지만 혁명적이지 않다"는 논조가 나왔습니다. Axios는 수학 및 지리 오류 보고, 지연에 대한 불만, 그리고 "Ph.D. 수준" 발언과의 차이를 지적하고 있습니다. Axios

  • 이러한 분위기는, 모델의 통합과 안전성·실용성 중시라는 OpenAI의 방향 전환이, 스펙타클한 "도약"을 기대하는 수용자와 어긋난 것도 배경에 있습니다. OpenAI



2. GPT-5로 "구 모델에서 할 수 없었던 것"

2-1. 통합형 시스템: 자동으로 "생각의 양"과 경로 최적화

GPT-5는 경량 응답 모델+깊은 추론 모델(GPT-5 Thinking/Pro)+실시간 라우터의 "통합체"입니다. 사용자의 지시나 과제의 난이도에 따라, 고속 응답에서 장고까지 가변적으로 구분하여 사용합니다. 이는 "빠르게 끝낼 작업은 빠르게, 난제는 깊게 생각하는" 경험을 기본으로 합니다. OpenAI



2-2. 코딩과 에이전트적 작업이 대폭 강화

개발자용 발표에서는, SWE-bench Verified 74.9%와 긴 도구 연쇄(병렬 포함) 강점이 제시되었고, verbosity 및 reasoning_effort등의 응답의 길이와 사고량을 제어하는 새로운 파라미터, **"플레인 텍스트로 호출할 수 있는 커스텀 도구"** 등도 추가되었습니다. 실무에서의 "완성하는 능력"이 향상되었습니다. OpenAI



2-3. 채팅 경험: 성격 프리셋과 음성의 진화

Fortune은, 냉소가(Cynic)/로봇(Robot)/잘 듣는 사람(Listener)/오타쿠(Nerd) 등 커스터마이즈 가능한 "성격" 프리셋 및 음성 경험의 강화를 소개했습니다. 톤의 미세 조정이 용이해져, 용도에 맞는 대화 스타일의 전환이 쉬워졌습니다. 포춘



2-4. 실무 영역의 확장(기업 유스)

OpenAI는, 쓰기・만들기・조사하기의 주요 업무에서의 정확도・속도・추론의 향상을 강조했습니다. 기업 워크플로우에서의 자동화・협동을 염두에 두고, **"새로운 노동 시대"**를 표방하고 있습니다. OpenAI



3. 그래도 불만은 왜?──초기 반응의 격차

  • 극적인 도약을 기대하는 기대치에 대해, **"대형 마이너 업그레이드"**로 보인 점.

  • 라우터 동작이나 일부의 정확성에 관한초기의 당혹감・불만 보고.

  • 구 모델(4o 등)과 비교한 **"온도"나 "공감"의 차이에 민감한 사용자 층.
    모두
    런칭 초기의 "익숙해짐・조정" 단계**에 의한 부분도 크며, OpenAI는 개선을 계속하는 자세를 보이고 있습니다. Axios



4. 타사가 아직 우수한 포인트(용도별로 보기)

4-1. 깊은 사고를 사용자가 핸들: Anthropic Claude

  • Extended Thinking을 ON/OFF할 수 있으며, 개발자는 **"사고 예산(thinking budget)"도 설정 가능. 복잡한 과제에서는 사고 토큰을 늘릴수록 정확도가 규칙적으로 향상**됩니다. SWE-bench나 TAU-bench 등에서도 강점이 나타났습니다. Anthropic+1

  • 더욱이 과거 대화의 횡단 검색・참조가 가능해지는 메모리계 업데이트도 진행(Max/Team/Enterprise 우선으로 전개). 장기 프로젝트의 재개에 편리합니다. The Verge

이렇게 구분하여 사용:

  • 수학・과학・설계 리뷰 등, "생각하는 시간"을 의도적으로 늘려 정확도를 추구하고 싶은 장면.

  • 안전성・정책 준수를 중시하는 팀. Anthropic



4-2. 조사・통합・장문맥: Google Gemini

  • 2.0 Pro/Flash/Flash-Lite에서 속도・비용・능력의 구분이 명확. 2M 토큰급의 장문맥, 검색・코드 실행과 같은 도구 연계를 공식적으로 전제화. blog.google

  • Deep Research 및 Canvas(코드 생성・미리보기를 동반한 작업 공간), **2.5 Pro(실험)**의 "사고" 강화도 전개. 교육용 AI Pro의 일본 제공 등 에코시스템 강화도 특징입니다. Geminiblog.google

이렇게 구분하여 사용:

  • Google 앱 연계를 활용한 조사・계획・자료화(YouTube/Maps/Drive 등).

  • 대량 문서 분석 및 장기 프로젝트 관리.



4-3. 자체 호스트/커스텀 자유도: Meta Llama(오픈 계열)

  • Llama 3.1(최대 405B)는 "오픈에서 가장 유력"급으로 보도되었으며, 이후 Llama 3.2에서는 비전 대응・엣지 최적화를 확충. 비용이나 프라이버시 요건으로 "자체 운영"을 원하는 기업에 적합합니다. The VergeAI Meta+1

이렇게 구분하여 사용:

  • 온프레미스/특정 규제 하에서의 운영, 세밀한 미세 조정 및 추론 비용의 최적화를 중시하는 장면.

  • 모바일・엣지에서의 실시간 처리.



5. 요약──"기대에 못 미침"인가 "착실한 진화"인가

  • GPT-5는 통합형의 지능 운영(사고량・라우팅)으로 "실무의 매끄러움"이 향상. 코딩・에이전트・지시 추종의 기초력은 확실히 향상되고 있습니다. OpenAI+1

  • 하지만

← 기사 목록으로 돌아가기

문의하기 |  이용약관 |  개인정보처리방침 |  쿠키 정책 |  쿠키 설정

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.