Google के AI वीडियो जनरेशन टूल "Flow" में हुआ विकास! ध्वनि तक उत्पन्न करने वाला AI कैमरा: Veo 3.1 बदलेगा "प्रस्तुति, संपादन और ध्वनि" की सीमाएं

2025年10月17日 01:19

15 अक्टूबर (स्थानीय समय), Google ने अपने नवीनतम वीडियो जनरेशन मॉडल "Veo 3.1" और उसी मॉडल से लैस AI फिल्ममेकिंग टूल "Flow" के बड़े अपडेट की घोषणा की। Flow में अब लाइट और शैडो के समायोजन जैसे "बाद के चरण" में संपादन संभव हो गया है, और कई सुविधाओं में मूल ध्वनि उत्पन्न होती है। इसके परिणामस्वरूप, पारंपरिक तरीके से छोटे क्लिप्स को जोड़ने के बजाय, यह "वीडियो निर्माण अनुभव" की ओर विकसित हो रहा है, जहां निर्देशन और संपादन के बीच आवागमन होता है। The Verge

क्या नया है: Flow की संपादन क्षमताएं और Veo 3.1 का संबंध

The Verge की रिपोर्ट के अनुसार, Flow AI जनरेटेड वीडियो में "प्रकाश और छाया" को बाद में जोड़ने और समायोजित करने की अनुमति देता है, जिससे अधिक स्वाभाविक संयोजन संभव होता है। परिणामस्वरूप, यह इतना स्वाभाविक हो जाता है कि इसे AI जनरेटेड के रूप में पहचानना मुश्किल होता है, लेकिन इसकी वास्तविकता की उच्चता सूचना पर्यावरण पर प्रभाव डालने वाली अपडेट है। इसके अलावा, "Ingredients to Video" (कई संदर्भ छवियों से दृश्य बनाना), "Frames to Video" (प्रारंभ/समाप्ति फ्रेम से मध्य भाग उत्पन्न करना), "Scene Extension/Extend" (अंतिम 1 सेकंड से अधिकतम लगभग 1 मिनट तक दृश्य विस्तार) जैसी मौजूदा सुविधाओं में उत्पन्न ध्वनि को व्यापक रूप से जोड़ा गया है। The Verge

Veo 3.1 स्वयं छवि→वीडियो रूपांतरण गुणवत्ता और प्रॉम्प्ट अनुपालन में सुधार करता है, और "बनावट", "टेक्सचर", "भौतिकता" की अभिव्यक्ति को मजबूत करता है, जैसा कि Google ने बताया। Flow के भीतर, "Insert (जोड़ें)" के साथ ऑब्जेक्ट्स को स्वाभाविक रूप से डाला जा सकता है, और छाया और लाइटिंग को स्वचालित रूप से समायोजित किया जाता है। इसके विपरीत, "Remove (हटाएं)" के साथ अनावश्यक तत्वों को हटाने की सुविधा भी "जल्द ही उपलब्ध" होगी। blog.google

कहां उपयोग किया जा सकता है? कितनी लंबाई में?

Google ने घोषणा की है कि Veo 3.1 को Flow में एकीकृत करने के अलावा, Gemini API (डेवलपर्स) और Vertex AI (एंटरप्राइज) और Gemini ऐप में भी उपलब्ध कराया जाएगा। The Verge ने बताया कि Veo 3.1 Veo 3 के समान मूल्य श्रेणी में है और Gemini API के "भुगतान पूर्वावलोकन" के रूप में उपलब्ध है। बाहरी रिपोर्टों में, टेक्स्ट/छवि से 4, 6, 8 सेकंड के क्लिप्स उत्पन्न करने की मूलभूत सुविधा का उल्लेख है, और Flow की दृश्य विस्तार सुविधा के साथ इसे व्यावहारिक रूप से लंबी अवधि तक बढ़ाया जा सकता है (कुछ रिपोर्टों में इसे अधिकतम लगभग 148 सेकंड बताया गया है, लेकिन यह UI या API की सीमाओं पर निर्भर करता है, इसलिए वास्तविक माप पर्यावरण के अनुसार बदल सकता है)।

"ध्वनि" का मुख्य भूमिका में आना: मूल ध्वनि उत्पन्न करने का अर्थ

Veo 3 पीढ़ी में शुरू हुई ध्वनि उत्पन्न करने की क्षमता 3.1 में संदर्भ अनुकूलता (संवाद, पर्यावरणीय ध्वनि, प्रभाव ध्वनि) की समृद्धि के साथ बढ़ गई है। विपणन सामग्री या प्रशिक्षण वीडियो जैसे उपयोगों के लिए, जहां वीडियो और ध्वनि को एक ही स्थान पर बनाना होता है, पारंपरिक "अलग DAW में ध्वनि समायोजन" को कम किया जा सकता है। व्यावहारिक संदर्भ में इसके प्रभाव को रेखांकित करने वाली रिपोर्टें भी जारी की गई हैं, और उत्पादन पाइपलाइन को सरल बनाने की उम्मीदें बढ़ रही हैं। Venturebeat

क्रिएटर्स की पहली समीक्षा: सोशल मीडिया का माहौल

घोषणा के तुरंत बाद सोशल मीडिया पर, Google के डेमिस हासाबिस ने Veo 3.1 को "अधिक समृद्ध ध्वनि और यथार्थवाद" के रूप में प्रस्तुत किया। Google Flow के आधिकारिक खाते ने भी "ध्वनि की समृद्धि" और "संपादन सटीकता में सुधार" जैसी विशेषताओं को सूचीबद्ध किया। टेक्नोलॉजी से संबंधित खातों से "Veo 3.1 फास्ट / क्वालिटी का आगमन" और "Gemini API के भुगतान पूर्वावलोकन में उपलब्ध" जैसी त्वरित रिपोर्टें भी आईं। ये सभी मुख्य रूप से विशेषताओं के मूल्यांकन पर केंद्रित हैं, और उत्साह अधिक है। X (formerly Twitter)

दूसरी ओर, Reddit पर वास्तविक परीक्षणों की साझा जानकारी बढ़ रही है। "Scene Extension के साथ 1 मिनट के शॉट्स बनाए जा सकते हैं" और "छवि को सामग्री के रूप में संयोजित करने वाला 'Ingredients to Video' दिलचस्प है" जैसी सकारात्मक प्रतिक्रियाएं हैं, जबकि "कार के पहियों की घूर्णन अभिव्यक्ति अस्वाभाविक है" और "फास्ट और क्वालिटी क्रेडिट खपत के मुकाबले आउटपुट अनुपातहीन है" जैसी कठोर आलोचनाएं भी देखी जा सकती हैं। Sora 2 जैसे प्रतिस्पर्धियों के साथ तुलना में "मानव अभिनय और आवाज़ में Veo की महारत" जैसी राय भी है, जबकि "स्थिर छवि जैसी भावना बनी रहती है" जैसी आलोचनाएं भी हैं, और मूल्यांकन विभाजित है। प्रारंभिक रोलआउट के रूप में समुदाय में "अस्थिरता" देखी जा सकती है। Reddit

एक थ्रेड भी शुरू हुआ है, जिसमें मॉडल की समयिक संगति और ध्वनि के एकीकरण का मूल्यांकन किया जा रहा है। उद्यमियों द्वारा "Veo 3.1 के ऊपर एक अनूठी परत जोड़कर उत्पाद" का प्रदर्शन जैसी गतिविधियां भी हो रही हैं, और आसपास की पारिस्थितिकी तंत्र की गतिविधियां तेजी से बढ़ रही हैं। news.ycombinator.com

व्यावसायिक उपयोगिता: न्यूनतम वर्कफ़्लो की रूपरेखा

उत्पादन गुणवत्ता में निश्चित रूप से वृद्धि हुई है, लेकिन असली मूल्य "वर्कफ़्लो को छोटा करना" है।

प्री-प्रोडक्शन: ① रफ स्केच→② सामग्री छवियां (चरित्र, प्रॉप्स, स्थान)→③ ध्वनि की नीति (पर्यावरण/प्रभाव/संवाद की उपस्थिति) का निर्णय लें।
प्रॉम्प्ट: "Ingredients to Video" के साथ सामग्री को एकत्र करें, और आवश्यकतानुसार "Frames to Video" के साथ शुरुआत/समाप्ति को स्थिर करें।
संपादन: रंग, एक्सपोजर, छाया के स्लाइडर के साथ समायोजित करें, "Insert/Remove" के साथ स्क्रीन को व्यवस्थित करें, और "Extend" के साथ शॉट्स को जोड़ें। इस आवागमन के साथ "निर्देशन→ध्वनि समायोजन→पुनः निर्देशन" के पुनरावृत्ति को कम समय में पूरा करना 3.1 की विशेषता है। blog.google

जोखिम और तैयारी: वास्तविकता की वृद्धि का अर्थ

The Verge ने संकेत दिया है कि Flow की मजबूती के कारण "AI जनरेटेड के रूप में पहचानना मुश्किल" वीडियो बनाना आसान हो जाएगा। गुमनाम स्थानों में गलत जानकारी के प्रसार को रोकने के लिए, क्रेडिट या उत्पत्ति इतिहास की स्पष्टता, वॉटरमार्क या C2PA जैसे आउटपुट प्रबंधन को टीम द्वारा स्थापित करना महत्वपूर्ण होगा। उत्पादन क्षमता की वृद्धि के साथ ही, निर्माण नैतिकता के अद्यतन की भी आवश्यकता होगी। The Verge

बाजार पर प्रभाव: प्रतिस्पर्धा की गतिशीलता

TechCrunch और 9to5Google ने Veo 3.1 को Flow की संपादन मजबूती के साथ जोड़कर देखा है, और प्रॉम्प्ट अनुपालन और छवि→वीडियो गुणवत्ता में सुधार की सराहना की है। Engadget ने भी "छवि से वीडियो उत्पन्न करने में प्रगति" की रिपोर्ट दी। Sora 2, Runway Gen-3, Pika आदि के साथ तुलना में मूल्यांकन विभाजित है, लेकिन Google का "समग्र उत्पादन वातावरण (Flow+Gemini+Vertex AI)" निश्चित रूप से विभाजन की दीवार को कम करता है। उद्यम उपयोग में "ध्वनि सहित एकीकृत प्रक्रिया" को हथियार बनाकर, प्रशिक्षण, प्रचार, और गेम में प्रदर्शन जैसी व्यापक उपयोग की संभावना है। TechCrunch　9to5Google

सारांश: Veo 3.1 युग का "निर्देशन×संपादन×ध्वनि"

Veo 3.1 और Flow का संयोजन, **निर्देशन (उत्पादन) और संपादन (समायोजन) और ध्वनि (कहानी का केंद्र)** को एक ही स्थान पर घुमाने का, AI वीडियो निर्माण का "नया सामान्य" प्रस्तुत करता है। उत्साह की गर्मी और क्षेत्र की मूल्यांकन अभी भी अस्थिर है, लेकिन प्रॉम्प्ट पर निर्भरता से "सामग्री डिजाइन→संदर्भ ध्वनि→स्थानीय संपादन" की ओर बढ़ने की संभावना है, और क्रिएटर्स को "अपने स्पर्श" का अनुभव वापस मिल रहा है। अब, नैतिकता, क्रेडिट, और कॉपीराइट की हैंडलिंग को कितनी अच्छी तरह से प्रबंधित किया जा सकता है, यह अगली चुनौती है। The Verge

संदर्भ लेख

Google के AI वीडियो जनरेशन टूल ने बेहतर संपादन और ध्वनि क्षमताओं को मजबूत किया
स्रोत: https://www.theverge.com/news/800371/google-veo-3-1-flow-audio

क्या नया है: Flow की संपादन क्षमताएं और Veo 3.1 का संबंध

कहां उपयोग किया जा सकता है? कितनी लंबाई में?

"ध्वनि" का मुख्य भूमिका में आना: मूल ध्वनि उत्पन्न करने का अर्थ

क्रिएटर्स की पहली समीक्षा: सोशल मीडिया का माहौल

व्यावसायिक उपयोगिता: न्यूनतम वर्कफ़्लो की रूपरेखा

जोखिम और तैयारी: वास्तविकता की वृद्धि का अर्थ

बाजार पर प्रभाव: प्रतिस्पर्धा की गतिशीलता

सारांश: Veo 3.1 युग का "निर्देशन×संपादन×ध्वनि"

बायडू, AI क्रांति के साथ खोज और वीडियो निर्माण में बदलाव कर रहा है! बायडू का लक्ष्य विज्ञापन के बाद का खजाना है।

1GPU पर 1 मिनट की ऑडियो को 1 सेकंड में उत्पन्न करना। माइक्रोसॉफ्ट, इन-हाउस AI की शुरुआत ─ क्या Copilot का "दिल" इन-हाउस बनेगा?

फोटो के संदर्भ को न तोड़ने वाला एआई: एक शब्द में पोशाक परिवर्तन। Google का 'Nano-Banana' फोटो संपादन की परंपराओं को बदल रहा है।

cookie_banner_title

क्या नया है: Flow की संपादन क्षमताएं और Veo 3.1 का संबंध

कहां उपयोग किया जा सकता है? कितनी लंबाई में?

"ध्वनि" का मुख्य भूमिका में आना: मूल ध्वनि उत्पन्न करने का अर्थ

क्रिएटर्स की पहली समीक्षा: सोशल मीडिया का माहौल

व्यावसायिक उपयोगिता: न्यूनतम वर्कफ़्लो की रूपरेखा

जोखिम और तैयारी: वास्तविकता की वृद्धि का अर्थ

बाजार पर प्रभाव: प्रतिस्पर्धा की गतिशीलता

सारांश: Veo 3.1 युग का "निर्देशन×संपादन×ध्वनि"

बायडू, AI क्रांति के साथ खोज और वीडियो निर्माण में बदलाव कर रहा है! बायडू का लक्ष्य विज्ञापन के बाद का खजाना है।

1GPU पर 1 मिनट की ऑडियो को 1 सेकंड में उत्पन्न करना। माइक्रोसॉफ्ट, इन-हाउस AI की शुरुआत ─ क्या Copilot का "दिल" इन-हाउस बनेगा?

फोटो के संदर्भ को न तोड़ने वाला एआई: एक शब्द में पोशाक परिवर्तन। Google का 'Nano-Banana' फोटो संपादन की परंपराओं को बदल रहा है।