Le jour où l'IA a remporté la médaille d'or - Gemini Deep Think et la vision future des mathématiques

2025年07月24日 01:23

1. Contexte : la scène de "AI vs. Olympiade de Mathématiques"

Depuis sa création en 1959, l'Olympiade Internationale de Mathématiques (IMO) est connue comme le plus haut sommet de la compétition intellectuelle humaine. C'est une compétition rigoureuse où il faut résoudre 6 problèmes en 4,5 heures, et seuls les 8 % les mieux classés obtiennent une médaille d'or. Le modèle de langage de grande taille de DeepMind, "Gemini Deep Think" (ci-après GDT), a relevé le défi, obtenant 35 points (sur un total de 42) et a été officiellement reconnu pour une médaille d'or.36Kr

2. Qu'est-ce qui est "officiel"?

Jusqu'à l'année dernière, AlphaProof/AlphaGeometry traduisait les preuves en langages formels comme "Lean" pour être notées, mais GDT a lu les énoncés des problèmes directement en anglais et a généré des preuves en langage naturel. Le fait que les juges aient noté ces preuves avec le même barème que pour les humains constitue la base de la "reconnaissance officielle".36Kr

3. Mode Deep Think et raisonnement parallèle

GDT est équipé d'un mode de raisonnement étendu appelé "Deep Think", qui permet de développer et d'intégrer en parallèle de nombreux chemins de pensée pour équilibrer précision et rapidité de réponse.

Raisonnement parallèle : Génération simultanée de diverses hypothèses et sélection par un algorithme de convergence
Apprentissage par renforcement : Auto-amélioration à partir d'un corpus de réponses de l'IMO
Gestion du temps : Allocation dynamique des ressources de calcul dans la contrainte de 4,5 heures

En conséquence, il a résolu complètement 5 problèmes et atteint 35 points.36Kr

4. Points forts par problème

Domaine du problème	Méthode typique des meilleurs humains	Approche caractéristique de GDT
Géométrie analytique (P1)	Partition de l'ensemble de points & projection	Visualisation du problème de couverture de points et classification rapide avec le concept de "rayon de soleil"
Géométrie (P2)	Points auxiliaires de contour et suivi d'angle	Incentre→tangente→orthocentre en réduction progressive
Inégalités fonctionnelles (P3)	Analyse asymptotique des maxima	Nomination de la fonction Bonza et division en cas, prouvant que la borne supérieure 4 = la borne inférieure 4
Suites entières (P4)	Invariants + raisonnement par l'absurde	Fixation de l'invariance sur "pair et multiple de 3"
Jeux combinatoires (P5)	Stratégie symétrique & valeur critique	Construction d'une stratégie gagnante avec λ<√2/1 et λ>√2/1 comme ligne de partage

(※P6 n'a pas été tenté)

5. Enthousiasme et scepticisme sur les réseaux sociaux

Sundar Pichai (PDG de Google)

“De l'argent à l'or en seulement un an – progrès étonnant!”X (anciennement Twitter)
Google DeepMind officiel

“Premier AI à atteindre le standard de médaille d'or de l'IMO, résolvant 5 / 6 problèmes.”X (anciennement Twitter)
Hacker News / Reddit ont vu des débats animés sur "la preuve complète en langage naturel est choquante" et "P3 était-il plus facile que d'habitude".techmeme.com
Elon Musk a répondu brièvement "Félicitations" tout en ironisant sur le fait que "le calendrier du remplacement des emplois humains par l'AI est encore avancé".The Times of India

D'autre part, OpenAI affirme également que son modèle de la série GPT-Grok est officieusement de niveau médaille d'or, et le débat sur la transparence des méthodes de notation se poursuit.

6. Pourquoi cela a-t-il du sens?

Généralisation du raisonnement
Les mathématiques représentent le summum du raisonnement en langage naturel, et les avancées dans ce domaine peuvent se propager à des domaines nécessitant un raisonnement de haute précision, tels que le droit, la recherche scientifique et la conception d'ingénierie.
AI en tant qu'outil
Ce succès montre le potentiel de l'AI à devenir une "ligne auxiliaire" pour les mathématiciens humains. Les applications potentielles incluent la génération d'idées pour les preuves, la détection d'erreurs et la création de problèmes d'entraînement.
Réduction des écarts éducatifs
Si des outils gratuits ou à faible coût capables de comprendre des problèmes de niveau IMO sont réalisés, ils pourraient corriger les disparités régionales en matière d'éducation mathématique.

7. Défis restants

Coût de vérification : Les preuves en langage naturel sont difficiles à corriger. Un pont avec la formalisation (Lean, etc.) est indispensable.
Soupçons de fuite de données : Comment éviter le surapprentissage des problèmes passés et des exemples de solutions.
Controverse sur "l'apport de notes" : Les critiques disent que l'injection de contexte à grande échelle compromet l'équité.

8. Feuille de route future

DeepMind a annoncé qu'il fournirait GDT exclusivement aux chercheurs et intégrerait le module de raisonnement dans le prochain Gemini Ultra. OpenAI, Anthropic et d'autres préparent également des défis similaires, et il est prévu que "l'Olympiade mathématique de l'AI" devienne une compétition permanente.

Articles de référence

L'AI Gemini Deep Think de Google remporte une médaille d'or officielle à l'Olympiade de Mathématiques - OSCHINA
Source: https://www.oschina.net/news/361739

← Retour à la liste d'articles

cookie_banner_title