गूगल ने पिछले सप्ताह अपने नवीनतम कृत्रिम बुद्धिमत्ता (एआई) मॉडल, लुमिएरे का अनावरण किया। नया AI मॉडल एक मल्टीमॉडल वीडियो जेनरेशन टूल है जो 5 सेकंड लंबे वीडियो जेनरेट कर सकता है। यह टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो जेनरेशन दोनों का समर्थन करता है और मौजूदा AI मॉडल से जुड़ता है रनवे जेन-2 और पिका 1.0. Google के अनुसार, Lumiere एक स्पेस-टाइम यू-नेट (STUNet) आर्किटेक्चर का उपयोग करता है जो AI वीडियो में गति कैसे होती है, इसे नवीनीकृत करता है, जिससे यह यथार्थवादी दिखता है। यह प्लेटफॉर्म अभी तक जनता के लिए खुला नहीं है।
साथ में प्रीप्रिंट में कागज़लुमिएरे के पीछे की अनुसंधान टीम ने बताया कि गति में प्रमुख नवाचार स्टिल फ्रेम को एक साथ रखने के बजाय एक ही प्रक्रिया में वीडियो बनाने से आता है। इसके कारण, वीडियो निर्माण के स्थानिक (वीडियो में वस्तुएं) और लौकिक (वीडियो में चीजें कैसे घूमती हैं) दोनों पहलू एक साथ बनाए जाते हैं। सामान्य व्यक्ति के लिए, इसका परिणाम गतियों को वैसे ही समझना है जैसे वे प्रकृति में घटित होती हैं। इसे प्राप्त करने के लिए, ल्यूमियर स्टेबल डिफ्यूजन के 25 फ्रेम के बजाय बड़ी संख्या में 80 फ्रेम उत्पन्न करता है।
“स्थानिक और (महत्वपूर्ण रूप से) अस्थायी डाउन- और अप-सैंपलिंग दोनों को तैनात करके और पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज प्रसार मॉडल का लाभ उठाकर, हमारा मॉडल इसे संसाधित करके सीधे पूर्ण-फ्रेम-दर, कम-रिज़ॉल्यूशन वीडियो उत्पन्न करना सीखता है। कई अंतरिक्ष-समय के पैमानों में, ”पेपर ने कहा।
हालाँकि Google Lumiere का इस समय परीक्षण नहीं किया जा सकता है, लेकिन वेबसाइट का परीक्षण किया जा सकता है रहना और उत्साही लोग एआई मॉडल के साथ-साथ आउटपुट बनाने के लिए उपयोग किए गए टेक्स्ट प्रॉम्प्ट और इनपुट छवियों का उपयोग करके बनाए गए विभिन्न वीडियो की जांच कर सकते हैं। यह विभिन्न शैलियों में वीडियो भी तैयार कर सकता है, सिनेमोग्राफ जो उपयोगकर्ताओं को वीडियो के एक निश्चित हिस्से को एनिमेट करने देता है, और इनपेंटिंग जहां एक नकाबपोश वीडियो या छवि का उपयोग किया जाता है और एआई इसे प्रॉम्प्ट के आधार पर पूरा करता है।
Google का नवीनतम AI वीडियो जेनरेशन टूल मौजूदा AI मॉडल जैसे रनवे जेन-2, जिसे मार्च 2023 में लॉन्च किया गया था, और पिका लैब के पिका 1.0 के साथ प्रतिस्पर्धा करता है, जो दोनों जनता के लिए सुलभ हैं। जबकि पिका 3 सेकंड लंबे वीडियो बना सकता है (जिसे 4 सेकंड तक बढ़ाया जा सकता है), रनवे 4 सेकंड तक लंबे वीडियो बना सकता है। दोनों मॉडल मल्टीमॉडल हैं और वीडियो संपादन की भी अनुमति देते हैं।