L'outil de génération de vidéos par IA de Google, "Flow", évolue ! La caméra IA qui crée même du son : Veo 3.1 redéfinit les frontières entre "mise en scène, montage et son".

2025年10月17日 01:12

Le 15 octobre (heure locale), Google a annoncé la dernière version de son modèle de génération d'images, "Veo 3.1", ainsi qu'une mise à jour majeure de son outil de création de films AI, "Flow", qui intègre ce modèle. Avec Flow, il est désormais possible d'effectuer des modifications en post-production, telles que l'ajustement des lumières et des ombres, et plusieurs fonctions permettent de générer des voix natives. Cela marque une évolution de l'utilisation traditionnelle consistant à assembler de courts clips générés, vers une "expérience de création vidéo" où la direction et le montage s'entrecroisent. The Verge

Quoi de neuf : la relation entre les fonctions d'édition de Flow et Veo 3.1

Selon un rapport de The Verge, Flow permet d'ajouter et d'ajuster "lumière et ombre" aux vidéos générées par l'IA, visant une composition plus naturelle. Bien que le résultat soit si naturel qu'il est difficile de détecter qu'il a été généré par l'IA, la haute réalité de cette mise à jour soulève des questions sur son impact sur l'environnement informationnel. De plus, des voix générées ont été ajoutées de manière transversale à des fonctions existantes telles que "Ingredients to Video" (composition de scènes à partir de plusieurs images de référence), "Frames to Video" (génération d'intermédiaires à partir de cadres de début/fin), et "Scene Extension/Extend" (extension de scène jusqu'à environ 1 minute à partir de la dernière seconde). The Verge

Veo 3.1 lui-même a amélioré la qualité de conversion image→vidéo et la fidélité aux prompts, renforçant l'expression de la "texture", de la "texture" et du "sens physique", selon Google. Dans Flow, il est possible d'insérer naturellement des objets avec "Insert", en intégrant automatiquement ombres et éclairage. À l'inverse, la fonction "Remove" pour supprimer des éléments indésirables est prévue pour bientôt. blog.google

Où peut-on l'utiliser ? Quelle est la durée ?

Google a annoncé que Veo 3.1 sera intégré à Flow, ainsi que disponible via l'API Gemini (pour les développeurs), Vertex AI (pour les entreprises) et l'application Gemini. The Verge rapporte que Veo 3.1 est disponible au même prix que Veo 3, en tant que "prévisualisation payante" de l'API Gemini. Selon des rapports externes, il est possible de générer des clips de 4, 6, et 8 secondes à partir de texte/image, et d'étendre effectivement leur durée avec la fonction d'extension de scène de Flow (bien que certains rapports mentionnent un maximum d'environ 148 secondes, cela dépend des contraintes de l'interface utilisateur et de l'API, et les résultats peuvent varier selon l'environnement).

Le "son" devient central : la signification de la génération de voix natives

La génération de voix, initiée avec la génération Veo 3, a vu sa richesse contextuelle (dialogues, sons d'ambiance, effets sonores) s'accroître avec la version 3.1. Pour des utilisations telles que le matériel marketing ou les vidéos de formation, où l'on souhaite créer des vidéos et du son de manière intégrée, la nécessité de "post-traiter le son dans un autre DAW" pourrait être réduite. Des rapports soulignant l'impact dans un contexte professionnel ont été publiés, et de nombreuses voix espèrent une simplification des pipelines de production. Venturebeat

Premières impressions des créateurs : l'ambiance sur les réseaux sociaux

Juste après l'annonce, Demis Hassabis de Google a promu Veo 3.1 sur les réseaux sociaux comme offrant "un son plus riche et un réalisme accru". Le compte officiel de Google Flow a également énuméré "l'enrichissement du son" et "l'amélioration de la précision de l'édition". Les comptes technologiques ont rapidement relayé des nouvelles telles que "Veo 3.1 Fast / Quality est arrivé" et "Disponible en prévisualisation payante via l'API Gemini". Ces messages se concentrent principalement sur l'évaluation des fonctionnalités, et l'engouement est fort. X (anciennement Twitter)

D'un autre côté, sur Reddit, le partage de tests pratiques est répandu. Des commentaires positifs tels que "On peut créer des plans d'une minute avec Scene Extension" et "Ingredients to Video, qui compose à partir d'images, est intéressant" sont présents, mais aussi des critiques comme "L'animation des roues est peu naturelle" et "Le rapport entre la consommation de crédits pour Fast et Quality et le rendu n'est pas satisfaisant". Comparé à des concurrents comme Sora 2, certains disent que "Veo excelle dans les performances humaines et les voix", tandis que d'autres critiquent le fait qu'il "reste un aspect statique". Cette "oscillation" typique des premiers déploiements est observable dans la communauté. Reddit

Des discussions ont également lieu, avec des commentaires évaluant la cohérence temporelle du modèle et l'intégration du son. Des entrepreneurs présentent des produits superposant des couches personnalisées sur Veo 3.1, montrant une activité rapide dans l'écosystème environnant. news.ycombinator.com

Utilité pratique : dessiner un flux de travail minimal

Bien que la qualité de génération ait progressé de manière constante, la véritable valeur réside dans la "réduction du flux de travail".

Pré-production : ① Esquisse de storyboard→② Images de référence (personnages, accessoires, lieux)→③ Définir la stratégie sonore (présence ou non de sons d'ambiance/effets/dialogues).
Prompt : Rassembler les matériaux avec "Ingredients to Video", et fixer le début/fin si nécessaire avec "Frames to Video".
Édition : Harmoniser avec les curseurs de couleur, d'exposition et d'ombre, arranger l'écran avec "Insert/Remove", et connecter les plans avec "Extend". Ce va-et-vient permet de répéter rapidement "mise en scène→post-traitement sonore→remise en scène", ce qui est l'attrait de la version 3.1.
blog.google

Risques et précautions : ce que signifie l'augmentation du réalisme

The Verge souligne que l'amélioration de Flow facilite la création de vidéos "difficiles à distinguer de celles générées par l'IA". Pour éviter de favoriser la diffusion de désinformation dans des espaces anonymes, il est important que les équipes mettent en place des crédits et des historiques de dérivation clairs, ainsi que des gestions de sortie telles que des filigranes ou C2PA. L'amélioration de la capacité de génération exige également une mise à jour de l'éthique de production. The Verge

Impact sur le marché : la dynamique avec les concurrents

TechCrunch et 9to5Google considèrent Veo 3.1 en tandem avec l'amélioration de l'édition de Flow, en évaluant la fidélité aux prompts et l'amélioration de la qualité image→vidéo. Engadget a également rapporté des "progrès dans la génération de vidéos à partir d'images". Les évaluations comparatives avec Sora 2, Runway Gen-3, Pika, etc., sont partagées, mais il est certain que l'"environnement de production intégré (Flow+Gemini+Vertex AI)" de Google abaisse les barrières de la division du travail. Pour les utilisations d'entreprise, l'intégration complète, y compris le son, pourrait s'étendre à des utilisations transversales telles que la formation, la promotion et la mise en scène dans les jeux. TechCrunch　9to5Google

Conclusion : l'ère de Veo 3.1 et la combinaison "mise en scène×édition×son"

La combinaison de Veo 3.1 et Flow a introduit une nouvelle norme dans la production vidéo AI, où **mise en scène (génération), édition (affinage), et son (cœur de l'histoire)** sont traités dans le même espace. Bien que l'engouement et les évaluations sur le terrain soient encore fluctuants, la possibilité de passer d'un simple prompt à "conception de matériaux→son contextuel→édition locale" redonne aux créateurs une sensation de "toucher personnel". Reste à voir jusqu'où l'éthique, les crédits et la gestion des droits d'auteur peuvent être intégrés dans les opérations. C'est là que se jouera la prochaine étape. The Verge

Articles de référence

L'outil de génération vidéo AI de Google améliore ses fonctionnalités d'édition et de son
Source : https://www.theverge.com/news/800371/google-veo-3-1-flow-audio

Propulsé par Froala Editor

← Retour à la liste d'articles

cookie_banner_title