L'avenir apporté par la nouvelle puce AI de Nvidia : le jour où le "Rubin CPX" révolutionnera la génération d'images et l'IA à long contexte - engloutissant vidéos et codes en entier

2025年09月11日 01:13

1｜Ce qui s'est passé——Points clés de l'annonce

Le 9 septembre 2025, lors d'un événement sur l'infrastructure AI, NVIDIA a dévoilé le Rubin CPX. Il s'agit d'un nouveau GPU de la génération Rubin, positionné après la série actuelle Blackwell, qui se concentre principalement sur l'inférence de **“long-contexte” pour la génération vidéo et la compréhension de code à grande échelle. La disponibilité est prévue pour **fin 2026. De plus, une philosophie de conception intégrant le décodage/encodage vidéo et l'inférence a été présentée, soulignant une approche de réingénierie des flux de travail de génération vidéo et de “génération de logiciels” par le matériel. Reuters

2｜Rubin CPX : un GPU pour l'AI à long contexte

Dans l'AI à long contexte, il y a d'abord une phase de “contexte” où une grande quantité d'entrées (code, vidéo, documents, etc.) est lue d'un coup, suivie d'une phase de “génération” où les tokens sont produits séquentiellement. NVIDIA a expliqué la conception qui équilibre le calcul à haut débit de la phase de contexte et la bande passante mémoire de la phase de génération. Conçu pour traiter des entrées de l'ordre de 1 million de tokens, il est dimensionné pour analyser une heure de vidéo. NVIDIA DeveloperReuters

3｜Ce que signifie la conception intégrée “vidéo×inférence”

Dans la pratique de la génération vidéo par AI, plusieurs étapes sont impliquées, telles que décodage→(extraction de caractéristiques, conditionnement)→génération→encodage. Rubin CPX vise à intégrer le décodage/encodage vidéo et l'inférence à long contexte dans un même système pour réduire la latence et les goulots d'étranglement I/O. Traditionnellement, le transfert de données entre le matériel codec hors GPU, le CPU ou un autre GPU constituait un goulot d'étranglement, mais en minimisant ces allers-retours, un traitement cohérent de la “réflexion” à la “vidéo” devient envisageable. Reuters

4｜Vue d'ensemble de la plateforme——NVL144 CPX, une “machine intégrée géante”

NVIDIA propose Rubin CPX en combinaison avec le Vera CPU et le Rubin GPU, sous forme de rack intégré appelé Vera Rubin NVL144 CPX. Les informations publiées indiquent une performance AI de 8 exaFLOPS, une mémoire rapide de 100 To, et une bande passante mémoire de 1,7 PB/s, soit une échelle 7,5 fois supérieure à celle du GB300 NVL72 actuel. Ce n'est pas simplement un “GPU unique”, mais un **“bloc de calcul, mémoire et I/O dédié à l'inférence à long contexte”**. NVIDIA NewsroomIT Pro

5｜Calendrier de disponibilité et formes de produit

La disponibilité est prévue pour fin 2026, selon une feuille de route à moyen terme. Pour les centres de données, des options telles que sous forme de carte, intégration dans des serveurs existants, ou encore en tant qu'unité indépendante sont envisagées. La transition de Blackwell à Rubin sera progressive, Rubin CPX jouant un rôle clair dans l'inférence à long contexte au sein de l'écosystème. Bloomberg.com

6｜Nouveaux flux financiers——Conception de l'économie des tokens côté matériel

L'aspect le plus discuté de cette annonce est le modèle de revenu. NVIDIA a présenté une estimation de **“$100M d'investissement pour $5B de revenu en tokens”**, soulignant une forte corrélation entre investissement matériel et facturation AI par token. C'est un indicateur qui impacte directement les décisions de mise à jour de l'infrastructure, reliant “puissance, espace et capacité” de l'AI directement au “chiffre d'affaires”. Bien sûr, de nombreuses conditions préalables existent, et ces chiffres doivent être vus comme un “scénario de potentiel maximal”, dépendant de la popularité du modèle, fréquence d'utilisation, et prix unitaire. NVIDIA CorporationReuters

7｜Fragments de spécifications : 128 Go de mémoire et NVFP4, etc. (basé sur les rapports)

Les documents officiels ont mis l'accent sur le rôle (long-contexte) et l'échelle de la plateforme, tandis que les spécifications détaillées des puces sont limitées. Les médias technologiques rapportent des informations fragmentaires telles que une mémoire de classe 128 Go GDDR7, des ressources de calcul NVFP4, un die monolithique, et plusieurs encodeurs/décodeurs matériels. Ces éléments doivent être considérés comme des “informations provisoires” pouvant évoluer dans les spécifications finales. Silicon UKIT ProWccftech快科技

8｜Réactions sur les réseaux sociaux——Un “flux bifluide” d'enthousiasme et de prudence

Partisans de l'accueil et de l'attente

En réponse à l'annonce sur le compte officiel, les développeurs et créateurs ont réagi avec le ton de **“les protagonistes de l'ère des 1 million de tokens”. Des startups comme Runway pour les outils de génération vidéo, et Cursor** et Magic pour l'assistance au code, ont mentionné l'examen de l'application dans leurs documents officiels, attirant déjà l'attention sur l'impact potentiel dans la pratique. X (formerly Twitter)NVIDIA Corporation

Discussions techniques

Sur Reddit, l'idée que **“CPX gère le préremplissage (contexte) et la génération est assurée par un autre GPU/HBM” a été partagée, suscitant un intérêt pour l'amélioration de la bande passante mémoire et des mécanismes d'attention. Reddit

Point de vue des investisseurs et du marché

L'estimation de retour sur investissement de “$100M→$5B” a suscité à la fois enthousiasme et scepticisme sur X et dans les communautés d'investisseurs. Certains ont critiqué en disant que un ROI de 50 fois est exagéré, tandis que d'autres ont affirmé que c'est tout à fait possible grâce aux économies d'échelle. X (formerly Twitter)Reddit

Réactions au calendrier

La date de mise en œuvre de fin 2026 a suscité des commentaires selon lesquels elle est “lointaine”. Cependant, de nombreux professionnels estiment que cela est raisonnable compte tenu de la transition de Blackwell→Rubin. Bloomberg.com

9｜Impact pour les créateurs et les développeurs

Génération vidéo : Si le traitement peut être intégré de l'importation à la sortie, cela améliore directement la cohérence contextuelle des vidéos longues et la cohérence entre les cadres. Cela est particulièrement efficace pour les générateurs nécessitant une narration traversant plusieurs histoires ou une cohérence des personnages. ##HTML_TAG_446

← Retour à la liste d'articles

cookie_banner_title