30 सेकंड में "उस तरह का संगीत" बड़े पैमाने पर उत्पन्न कर सकता है - जेमिनी की नई विशेषता जो कॉपीराइट की वास्तविकता को चुनौती देती है।

30 सेकंड में "उस तरह का संगीत" बड़े पैमाने पर उत्पन्न कर सकता है - जेमिनी की नई विशेषता जो कॉपीराइट की वास्तविकता को चुनौती देती है।

"सोची गई 'वातावरण' को सीधे ध्वनि में बदलना"। ऐसा अनुभव आखिरकार चैट ऐप के मानक फीचर के करीब आ गया है।

Google ने अपने Gemini ऐप में Google DeepMind के संगीत निर्माण मॉडल "Lyria 3" को शामिल किया है, जिससे यह टेक्स्ट और छवियों से 30 सेकंड के संगीत ट्रैक उत्पन्न कर सकता है। इसका उद्देश्य 'महान संगीत का स्वचालित निर्माण' नहीं है, बल्कि दैनिक संदेशों या यादों को BGM के साथ जोड़ने के लिए एक हल्का और साझा करने योग्य सृजन का प्रवेश द्वार प्रदान करना है।


क्या नया हो गया है: 30 सेकंड का "वास्तविक जैसा ध्वनि" तुरंत उत्पन्न होता है

इस बार के मुख्य बिंदु तीन हैं।
पहला बिंदु यह है कि Gemini के स्क्रीन के भीतर "संगीत रचना" पूरी होती है। किसी अन्य ऐप पर जाने की आवश्यकता नहीं है, बस टूल मेनू से संगीत निर्माण को बुलाएं और एक प्रॉम्प्ट डालें, और 30 सेकंड का ट्रैक वापस आ जाएगा।

दूसरा बिंदु यह है कि इनपुट केवल 'शब्दों तक' सीमित नहीं है। आप केवल "शैली", "मूड", "टेम्पो" आदि को टेक्स्ट में निर्दिष्ट नहीं कर सकते, बल्कि फोटो या वीडियो का संदर्भ लेकर भी गीत बना सकते हैं। उदाहरण के लिए, हाइकिंग के दौरान एक कुत्ते की तस्वीर देकर, उस वातावरण के अनुरूप गीत के साथ एक गीत बनाने की कल्पना की गई है।


तीसरा बिंदु यह है कि यह गीत और साझा करने को 'वन-पैकेज' में शामिल करता है। Lyria 3 उपयोगकर्ता द्वारा गीत तैयार किए बिना भी स्वचालित रूप से उत्पन्न कर सकता है, और तैयार गीत में साझा करने के लिए एक कवर आर्ट भी शामिल होता है। Google इसे "आसानी से व्यक्त करने के लिए एक मजेदार और अनोखा तरीका" के रूप में देखता है।


प्रदान की गई शर्तों के अनुसार, यह 18 वर्ष से अधिक आयु के लोगों के लिए है और इसे कई भाषाओं (जापानी सहित) में विस्तारित किया जाएगा। पहले इसे डेस्कटॉप से प्रदान किया जाएगा और फिर धीरे-धीरे मोबाइल पर विस्तारित किया जाएगा।


क्या 'उत्पन्न AI जैसा' गायब हो जाएगा? Lyria 3 का जोर "वास्तविकता" और "नियंत्रण" पर

Google के विवरण में जो बात सबसे अधिक ध्यान आकर्षित करती है, वह यह है कि यह "अधिक वास्तविक और अधिक जटिल संगीत" बना सकता है। गीतों की स्वचालित उत्पत्ति के अलावा, शैली, वोकल, टेम्पो आदि के तत्वों को नियंत्रित करना आसान बना दिया गया है। यानी, यह केवल 'गैचा' नहीं है, बल्कि कुछ हद तक छवि के करीब जाने की दिशा में सुधार किया गया है।


हालांकि, वर्तमान में 30 सेकंड की सीमा है। सोशल मीडिया पर भी "यह छोटा है, लेकिन शॉर्ट वीडियो या मीम के उपयोग के लिए पर्याप्त है" और "इसके छोटे होने के कारण यह तेजी से उत्पादन हो सकता है" जैसी प्रतिक्रियाएं मिली हैं। शॉर्ट वीडियो युग में संगीत के लिए, फुल लेंथ से अधिक 'कई सेकंड की पकड़' का मूल्य होता है। 30 सेकंड का समय, वास्तव में, उसी को लक्षित करने के लिए डिज़ाइन किया गया लगता है।


YouTube Shorts पर प्रभाव: BGM का 'स्टॉक' सामान्य हो जाएगा

Google ने YouTube के Dream Track में भी Lyria 3 को शामिल किया है, जिससे शॉर्ट वीडियो के लिए साउंडट्रैक बनाने को बढ़ावा मिलता है। यदि शॉर्ट AI संगीत "वीडियो संपादन का अंतिम टुकड़ा" बन जाता है, तो रचनाकारों की उत्पादन प्रक्रिया निश्चित रूप से बदल जाएगी।


यहां जो महत्वपूर्ण है वह है 'उत्पादन की गति' और 'भाषा की बाधा की कमी'। वीडियो के टेम्पो के अनुसार कई पैटर्न के BGM का परीक्षण करना सामान्यतः समय लेने वाला होता है, लेकिन यदि केवल चैट में मूड व्यक्त करने से विकल्प मिल जाते हैं, तो पेशेवर सेटिंग में नहीं भी, परीक्षण की संख्या बढ़ सकती है। सोशल मीडिया पर भी, मार्केटिंग या प्रोटोटाइपिंग के दृष्टिकोण से "जल्दी से रफ आइडिया बना सकते हैं" के रूप में सकारात्मक रूप से देखा जाता है।


सबसे विवादास्पद मुद्दा: कॉपीराइट और "शिक्षण डेटा क्या है"

AI संगीत के विषय में बात करते समय, कॉपीराइट और शिक्षण डेटा का मुद्दा हमेशा सामने आता है। Google ने स्पष्ट किया है कि यह "मौजूदा कलाकारों की नकल नहीं बल्कि मूल अभिव्यक्ति के लिए है", और यदि किसी विशेष कलाकार का नाम डाला जाता है, तो इसे 'वातावरण या मूड' के रूप में व्याख्या किया जाएगा। इसके अलावा, मौजूदा सामग्री के साथ समानता की जांच करने के लिए एक फिल्टर और अधिकार उल्लंघन की रिपोर्टिंग के लिए एक खिड़की का भी उल्लेख किया गया है।


दूसरी ओर, बाहरी मीडिया और उद्योग के दृष्टिकोण में "शिक्षण स्रोत का विवरण स्पष्ट नहीं किया गया है" की आलोचना भी की गई है। AI संगीत के इर्द-गिर्द मुकदमे और विवाद होते रहे हैं, और इस बार भी 'कितनी पारदर्शिता प्रदान की जा सकती है' यह प्रतिक्रिया को प्रभावित कर सकता है।


"AI द्वारा बनाई गई ध्वनि" की पहचान करना: SynthID और पहचान की कार्यक्षमता का महत्व

एक और महत्वपूर्ण बात यह है कि उत्पन्न संगीत में पहचान जानकारी को एम्बेड करना, जिसे "SynthID" कहा जाता है। Gemini में बनाए गए ट्रैक में एक वॉटरमार्क जोड़ा जाता है, और Gemini पक्ष पर "क्या यह ध्वनि Google के AI द्वारा बनाई गई है" की पुष्टि करने की कार्यक्षमता का भी विस्तार किया जाएगा। छवि और वीडियो के बाद, ध्वनि में भी पहचान को विस्तारित किया जाएगा।


सोशल मीडिया की प्रतिक्रियाओं में, इस पर भी मिश्रित प्रतिक्रियाएं आईं। स्वागत करने वाले पक्ष का कहना है "यदि लेबलिंग है तो सुरक्षित है" और "कम से कम 'मानव द्वारा बनाई गई होने का दिखावा' को रोका जा सकता है"। दूसरी ओर, संदेहास्पद पक्ष का कहना है "क्या वॉटरमार्क को टाला नहीं जाएगा" और "यदि पहचान सामान्य मानक नहीं बनती है तो इसका कोई अर्थ नहीं है"। इसके अलावा, '30 सेकंड के बड़े पैमाने पर उत्पादन' के कारण, स्ट्रीमिंग धोखाधड़ी या सामग्री धोखाधड़ी की संभावना भी बनी रहती है।


सोशल मीडिया की प्रतिक्रिया: उत्साह और अस्वीकृति दोनों बढ़ते हैं

इस बार के विषय में जो प्रतीकात्मक है, वह यह है कि "मज़ेदार लगता है!" और "डरावना" दोनों ही एक साथ चर्चा में हैं।


सकारात्मक पक्ष (खेल, अभिव्यक्ति, समय की बचत)

  • "दैनिक घटनाओं में BGM जोड़ना" का विचार सहज है और इसे मीम में बदलना आसान है। उदाहरण के लिए, Google ने "मोजे के प्यार का R&B" जैसे मजाकिया विषयों के साथ भी इसे सफल होते दिखाया है।

  • मार्केटिंग और योजना के क्षेत्र से, रफ साउंड आइडिया को कम समय में बनाने का लाभ बताया गया है, और इसे पेशेवर उपयोग के "पूर्ण प्रतिस्थापन" के बजाय "प्रोटोटाइपिंग" के रूप में देखा जा रहा है।


चिंता का पक्ष (दुरुपयोग, कॉपीराइट, प्रदर्शन)

  • Reddit के AI संगीत समुदाय में, AI को रचनात्मक सहायता के रूप में स्वीकार किया जाता है, लेकिन "बड़े पैमाने पर उत्पादन करके मानव के काम के रूप में दिखावा करना/धोखाधड़ी से कमाई करना" जैसे कार्यों को समस्या के रूप में देखा जाता है।

  • उद्योग मीडिया में, शिक्षण डेटा की पारदर्शिता की कमी को लेकर चिंता जताई गई है, और "जिम्मेदार विकास" का दावा करना ही पर्याप्त नहीं माना जा रहा है।


आखिरकार, प्रतिक्रिया का विभाजन बिंदु "यह किसके लिए है" पर केंद्रित होता है। व्यक्तिगत खेल या अभिव्यक्ति के विस्तार के रूप में इसे आसानी से स्वीकार किया जाता है। हालांकि, जैसे ही यह वितरण प्लेटफॉर्म पर मुद्रीकरण या मौजूदा संगीत वितरण में प्रवेश करता है, अधिकार, प्रदर्शन, और दुरुपयोग की रोकथाम तुरंत "सामाजिक मुद्दे" बन जाते हैं।


आगे क्या हो सकता है: संगीत "निर्मित वस्तु" से "उत्पन्न महसूस" में बदल सकता है?

Lyria 3 का एकीकरण यह संकेत देता है कि संगीत "बनाने और पूरा करने की चीज़" से "जब आवश्यक हो तब उत्पन्न करने की चीज़" की ओर बढ़ रहा है। शॉर्ट वीडियो का BGM, प्रस्तुति का जिंगल, व्यक्तिगत विशेष दिनों का साउंडट्रैक - ऐसे "ध्वनि जो केवल खपत के क्षण में मूल्यवान होती है" उत्पन्न AI के साथ अच्छी तरह मेल खाती है।


दूसरी ओर, यदि अधिकार और पारदर्शिता की चर्चा नहीं की जाती है, तो सुविधा उसी समय विरोध का ईंधन भी बन सकती है। Google का SynthID और पहचान कार्यक्षमता को सामने लाना इस बात का संकेत है कि वे इस आग के स्रोत को समझते हैं।


30 सेकंड का "वास्तविक जैसा संगीत" एक मामूली खेल भी हो सकता है और एक विशाल उद्योग संघर्ष भी। Gemini की नई विशेषता वास्तव में संगीत के भविष्य से अधिक "सृजन और वितरण के नियमों को कितना पुनःनिर्मित किया जा सकता है" को सवाल कर रही है।



स्रोत URL