Produire de la musique "semblable" en 30 secondes ─ La nouvelle fonctionnalité de Gemini confronte la réalité du droit d'auteur

Produire de la musique "semblable" en 30 secondes ─ La nouvelle fonctionnalité de Gemini confronte la réalité du droit d'auteur

"Transformer une 'ambiance' en son directement." Cette expérience se rapproche enfin d'une fonctionnalité standard des applications de messagerie.

Google a intégré le modèle de génération musicale "Lyria 3" de Google DeepMind dans l'application Gemini, permettant de créer des pistes musicales de 30 secondes à partir de texte ou d'images. L'objectif n'est pas tant de "fabriquer des chefs-d'œuvre automatiquement", mais plutôt de fournir une entrée légère et facile à partager pour ajouter de la musique de fond aux messages quotidiens ou aux souvenirs.


Qu'est-ce qui est désormais possible : obtenir instantanément un "son qui ressemble" de 30 secondes

Trois points clés se dégagent de cette annonce.
Le premier est que la "composition" se termine dans l'écran de Gemini. Il n'est pas nécessaire de passer à une autre application ; il suffit d'appeler la génération musicale depuis le menu des outils et d'entrer une invite pour obtenir une piste de 30 secondes.

Le deuxième point est que l'entrée ne se limite pas uniquement au "texte". En plus de spécifier des éléments tels que le "genre", "l'humeur" ou "le tempo" par texte, il existe également un chemin pour créer de la musique en se basant sur des photos ou des vidéos. Par exemple, il est envisagé de fournir une photo d'un chien en randonnée et de créer une chanson avec des paroles qui correspondent à cette ambiance.


Le troisième point est que l'ensemble comprend les paroles et le partage. Lyria 3 peut générer automatiquement des paroles sans que l'utilisateur ait à les fournir, et la chanson finie est accompagnée d'une couverture artistique pour le partage. Google présente cela comme "une méthode amusante et unique pour s'exprimer facilement".


Les conditions de mise à disposition stipulent qu'elle est destinée aux personnes de 18 ans et plus, et qu'elle sera déployée dans plusieurs langues, y compris le japonais. Elle sera d'abord disponible sur le bureau, puis progressivement étendue aux mobiles.


L'apparence "typique de l'IA générative" disparaît-elle ? Lyria 3 met l'accent sur le "réalisme" et le "contrôle"

Google met en avant la capacité à créer une musique "plus réaliste et plus complexe". En plus de la génération automatique de paroles, la facilité de contrôle des éléments tels que le style, le chant et le tempo est citée comme une amélioration. En d'autres termes, il ne s'agit pas simplement d'un "tirage au sort", mais d'une approche qui se rapproche davantage de l'image souhaitée.


Cependant, il y a actuellement une limite de 30 secondes. Sur les réseaux sociaux, les avis sont partagés : "C'est court, mais suffisant pour les vidéos courtes ou les mèmes", "C'est justement parce que c'est court que la production de masse pourrait s'accélérer". Dans l'ère des vidéos courtes, la musique a souvent plus de valeur dans les "quelques dizaines de secondes accrocheuses" que dans une version complète. Les 30 secondes semblent être conçues précisément pour cela.


Impact sur YouTube Shorts : la création de BGM "en stock" devient-elle la norme ?

Google introduit également Lyria 3 dans Dream Track de YouTube, soutenant la création de bandes sonores pour les vidéos courtes. Si la musique AI de courte durée devient "la dernière pièce du puzzle de l'édition vidéo", le flux de travail des créateurs changera certainement.


Ici, la "vitesse de génération" et la "faible barrière linguistique" entrent en jeu. Essayer plusieurs BGM pour correspondre au tempo de la vidéo est normalement fastidieux, mais si des suggestions apparaissent simplement en exprimant une humeur dans un chat, le nombre d'essais augmentera même en dehors des environnements professionnels. Sur les réseaux sociaux, des publications voient cela positivement du point de vue du marketing ou du prototypage, soulignant la capacité à créer rapidement des brouillons.


Le point le plus controversé : droits d'auteur et "quelles sont les données d'apprentissage"

Lorsqu'il s'agit de musique AI, les droits d'auteur et les données d'apprentissage sont des sujets inévitables. Google affirme clairement que ce n'est pas pour "imiter les artistes existants, mais pour une expression originale", et explique que même si un nom d'artiste spécifique est inclus, il sera interprété comme une "ambiance ou une humeur". De plus, ils mentionnent des filtres pour vérifier les similitudes avec les contenus existants et des points de contact pour signaler les violations de droits.


D'autre part, des médias externes et des opinions de l'industrie soulignent que "les détails de la source d'apprentissage ne sont pas clairs". Les litiges et les conflits autour de la musique AI ont une histoire, et cette fois encore, la manière dont la transparence est assurée pourrait influencer la perception.


Distinguer le "son créé par l'IA" : la signification de SynthID et des fonctions de détection

Un autre aspect important est l'intégration d'informations d'identification dans la musique générée via "SynthID". Les pistes créées avec Gemini sont marquées d'un filigrane, et la fonctionnalité de vérification "si cet audio a été créé par l'IA de Google" sera également étendue. Après les images et les vidéos, la détection s'étend donc également à l'audio.


Les réactions sur les réseaux sociaux sont partagées à ce sujet. Ceux qui l'accueillent favorablement disent "c'est rassurant s'il y a un étiquetage", "au moins cela empêche de prétendre que c'est fait par un humain". Les sceptiques, en revanche, soulignent "le filigrane ne peut-il pas être contourné ?", "la détection n'a pas beaucoup de sens si elle ne devient pas une norme générale". De plus, en raison de la nature de la "production de masse de 30 secondes", il y a une inquiétude persistante qu'elle puisse devenir un terreau fertile pour la fraude en streaming ou les escroqueries de contenu.


Réactions sur les réseaux sociaux : enthousiasme et réticence augmentent simultanément

Ce qui est symbolique dans ce sujet, c'est que "ça a l'air amusant !" et "ça fait peur" deviennent viraux en même temps.


Côté positif (jeu, expression, gain de temps)

  • L'idée d'ajouter une BGM aux événements quotidiens est intuitive et facile à transformer en mème. À titre d'exemple, Google montre que même des sujets farfelus comme "l'amour des chaussettes en R&B" peuvent fonctionner.

  • Dans le domaine du marketing et de la planification, l'avantage de pouvoir créer rapidement des ébauches musicales est souligné, et la valeur est mise en avant non pas comme un "remplacement complet pour un usage professionnel", mais comme un "prototypage".


Côté préoccupations (utilisation abusive, droits d'auteur, affichage)

  • Dans la communauté AI musicale de Reddit, bien que l'IA soit acceptée comme une aide à la création, il y a des voix qui soulignent que le véritable problème est "la production de masse pour faire passer cela pour une œuvre humaine / gagner de l'argent de manière frauduleuse".

  • Dans les médias de l'industrie, il y a une inquiétude concernant le manque de transparence des données d'apprentissage, et l'atmosphère est telle qu'il est difficile de se contenter de simplement prôner un "développement responsable".


En fin de compte, le point de divergence des réactions se résume à "pour qui est cette fonctionnalité". Si elle est destinée à l'amusement personnel ou à l'extension de l'expression, elle est généralement bien accueillie. Cependant, dès qu'elle entre dans la monétisation sur les plateformes de diffusion ou dans la distribution musicale existante, les droits, l'affichage et les mesures anti-fraude deviennent rapidement un "problème social".


Ce qui pourrait se passer ensuite : la musique passe-t-elle de "production" à "ambiance générée" ?

L'intégration de Lyria 3 symbolise une tendance où la musique se déplace de "quelque chose à créer et à compléter" vers "quelque chose à générer quand nécessaire". La BGM pour les vidéos courtes, les jingles pour les présentations, les bandes sonores pour les anniversaires personnels - ces "sons qui n'ont de valeur que dans le moment de consommation" s'accordent bien avec l'IA générative.


D'un autre côté, si le débat sur les droits et la transparence ne suit pas, la commodité pourrait devenir un carburant pour la résistance. Google met en avant SynthID et les fonctions de détection parce qu'ils sont conscients de ce potentiel de conflit.


La "musique qui ressemble" de 30 secondes peut être à la fois un simple amusement et une collision industrielle majeure. Ce que la nouvelle fonctionnalité de Gemini questionne vraiment, ce n'est peut-être pas tant l'avenir de la musique que "jusqu'où pouvons-nous réinventer les règles de la création et de la distribution".



Source URL