Aller au contenu principal
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア Logo
  • Tous les articles
  • 🗒️ S'inscrire
  • 🔑 Connexion
    • 日本語
    • English
    • 中文
    • Español
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message Politique de confidentialité cookie_banner_and Politique des cookies cookie_banner_more_info

Paramètres des cookies

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

ChatGPT-5 est-il vraiment décevant ? ── Ce que l'ancien modèle ne pouvait pas faire / Un examen complet des domaines où les autres entreprises sont encore supérieures

ChatGPT-5 est-il vraiment décevant ? ── Ce que l'ancien modèle ne pouvait pas faire / Un examen complet des domaines où les autres entreprises sont encore supérieures

2025年08月12日 23:16

1. D'abord, clarifions la véritable nature de la théorie de la "déception"

  • Dès l'annonce, les opinions ont divergé sur les réseaux sociaux et dans les médias. Les commentaires soulignaient que "les attentes des utilisateurs étaient excessivement élevées" et que "l'aspect pratique s'était amélioré, mais qu'il n'y avait pas de révolution". Axios a souligné les erreurs en mathématiques et en géographie, les plaintes concernant les retards, et le décalage avec l'affirmation de niveau "Ph.D.". Axios

  • Cette atmosphère est également due au fait que le changement de direction d'OpenAI, axé sur l'intégration et la sécurité des modèles et la praticité, a déçu ceux qui attendaient un "saut" spectaculaire. modèle d'intégration et de sécurité/praticité. OpenAI



2. Ce que GPT-5 peut faire que l'ancien modèle ne pouvait pas

2-1. Système intégré : optimisation automatique de la "quantité de réflexion" et des parcours

GPT-5 est une combinaison de modèles de réponse légers, de modèles de raisonnement profond (GPT-5 Thinking/Pro) et de routeurs en temps réel. En fonction des instructions de l'utilisateur et de la complexité de la tâche, il alterne entre des réponses rapides et des réflexions approfondies. Cela établit par défaut une expérience où "les tâches rapides sont effectuées rapidement, et les problèmes complexes sont réfléchis en profondeur". OpenAI



2-2. Renforcement significatif du codage et des tâches de type agent

Lors de l'annonce pour les développeurs, il a été démontré que SWE-bench Verified 74.9% et la force dans les longues chaînes d'outils (y compris en parallèle), ainsi que de nouveaux paramètres pour contrôler verbosity et reasoning_effort, la longueur des réponses et la quantité de réflexion, ainsi que des outils personnalisés appelables en texte brut. La capacité à "finir le travail" dans le cadre professionnel s'est améliorée. OpenAI



2-3. Expérience de chat : préréglages de personnalité et évolution de la voix

Fortune a présenté des préréglages de personnalité personnalisables tels que Cynic, Robot, Listener, Nerd et l'amélioration de l'expérience vocale. L'ajustement du ton est devenu plus facile, permettant de changer de style de conversation en fonction des besoins. Fortune



2-4. Expansion dans le domaine professionnel (utilisation en entreprise)

OpenAI a souligné l'amélioration de la précision, de la vitesse et du raisonnement dans les principales tâches de rédaction, création, recherche. Ils prônent une **"nouvelle ère du travail"** en mettant l'accent sur l'automatisation et la collaboration dans les flux de travail d'entreprise. OpenAI



3. Pourquoi y a-t-il encore des mécontentements ? — Le décalage des premières réactions

  • Par rapport aux attentes d'un saut spectaculaire, il a été perçu comme une **"grande mise à jour mineure"**.

  • Les comportements du routeur et certains problèmes de précision ont causédes confusions initiales et des rapports de dysfonctionnements.

  • Les utilisateurs sensibles aux différences de **"température" et "empathie"** par rapport aux anciens modèles (comme 4o). Cela est en grande partie dû à la phase initiale de **"familiarisation et ajustement"** après le lancement, et OpenAI continue de montrer une volonté d'amélioration.
    Axios



4. Points où d'autres entreprises sont encore supérieures (par utilisation)encore

4-1. Contrôle de la réflexion profonde par l'utilisateur : Anthropic Claude

  • Extended Thinking peut être activé/désactivé, et les développeurs peuvent également définir un **"budget de réflexion". Pour les tâches complexes, **l'augmentation des jetons de réflexion améliore systématiquement la précision**. La force a également été démontrée sur SWE-bench et TAU-bench. Anthropic+1

  • De plus, les mises à jour de la mémoire permettant la recherche et la référence transversales des dialogues passés progressent (déployées en priorité pour Max/Team/Enterprise). Pratique pour reprendre des projets à long terme. The Verge

Comment les différencier :

  • Dans des contextes comme les mathématiques, la science, et la révision de conception, où vous souhaitez augmenter intentionnellement le "temps de réflexion" pour améliorer la précision.

  • Pour les équipes mettant l'accent sur la sécurité et la conformité aux politiques. Anthropic



4-2. Recherche, intégration, long contexte : Google Gemini

  • 2.0 Pro/Flash/Flash-Lite offre une différenciation claire de la vitesse, du coût et des capacités. Contexte long de 2M tokens, exécution de recherche et de code, et intégration d'outils sont officiellement pris en compte. blog.google

  • Deep Research et Canvas (espace de travail avec génération et prévisualisation de code), ainsi que le renforcement de la "réflexion" avec **2.5 Pro (expérimental)**. Fourniture d'AI Pro pour l'éducation au Japon et renforcement de l'écosystème sont également des caractéristiques. Geminiblog.google

Comment les différencier :

  • Utilisation intégrée pour la recherche, la planification et la documentation avec intégration des applications Google

    (YouTube/Maps/Drive, etc.).
  • Analyse de documents volumineux et gestion de projets à long terme.



4-3. Auto-hébergement / liberté de personnalisation : Meta Llama (open source)

  • Llama 3.1 (jusqu'à 405B) est rapporté comme étant de "niveau leader en open source", et avec Llama 3.2, il y a eu une expansion de la compatibilité avec la vision et l'optimisation en périphérie. Pour les entreprises souhaitant "opérer en interne" en raison des coûts ou des exigences de confidentialité, cela est attrayant. The VergeAI Meta+1

Comment les différencier :

  • Opérations sur site / sous réglementation spécifique, avec un accent sur les ajustements fins et l'optimisation des coûts de raisonnement.

  • Traitement en temps réel sur mobile et en périphérie.



5. Conclusion — "Déception" ou "évolution progressive"

  • GPT-5 améliore la "fluidité opérationnelle" avec une gestion intégrée de l'intelligence (quantité de réflexion, routage). Les capacités de base en codage, agent et suivi des instructions se sont effectivement améliorées. OpenAI+1

  • Cependant, ceux qui attendent un "saut spectaculaire" peuvent être déçus.##HTML

← Retour à la liste d'articles

Contact |  Conditions d'utilisation |  Politique de confidentialité |  Politique des cookies |  Paramètres des cookies

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア Tous droits réservés.