OpenAI, पीछे कंपनी चैटजीपीटीने गुरुवार को अपना पहला कृत्रिम बुद्धिमत्ता (एआई) संचालित टेक्स्ट-टू-वीडियो जेनरेशन मॉडल सोरा पेश किया। कंपनी का दावा है कि यह 60 सेकंड तक लंबे वीडियो तैयार कर सकता है। यह इस सेगमेंट में इसके किसी भी प्रतिस्पर्धी से अधिक लंबा है, जिसमें Google का Lumiere भी शामिल है अनावरण किया पिछला महीना। सोरा वर्तमान में रेड टीमर्स, साइबर सुरक्षा विशेषज्ञों के लिए उपलब्ध है जो कंपनियों को अपने सॉफ़्टवेयर को बेहतर बनाने में मदद करने के लिए बड़े पैमाने पर सॉफ़्टवेयर का परीक्षण करते हैं, और कुछ सामग्री निर्माता। ऐ एक बार मॉडल को OpenAI उत्पाद में तैनात करने के बाद कंपनी भविष्य में सामग्री उद्गम और प्रामाणिकता के लिए गठबंधन (C2PA) मेटाडेटा को शामिल करने की भी योजना बना रही है।
एक में एआई वीडियो जनरेटर की घोषणा डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर कंपनी ने कहा, “सोरा अत्यधिक विस्तृत दृश्यों, जटिल कैमरा गति और जीवंत भावनाओं के साथ कई पात्रों की विशेषता वाले 60 सेकंड तक के वीडियो बना सकता है।” दिलचस्प बात यह है कि जिस वीडियो को बनाने का वह दावा करता है उसकी लंबाई उसके प्रतिद्वंद्वियों की तुलना में दस गुना से भी अधिक है। Google का Lumiere 5-सेकंड लंबे वीडियो उत्पन्न कर सकता है, जबकि रनवे AI और Pika 1.0 क्रमशः 4-सेकंड और 3-सेकंड लंबे वीडियो उत्पन्न कर सकते हैं।
संकेत: “एक फिल्म का ट्रेलर जिसमें लाल ऊनी बुना हुआ मोटरसाइकिल हेलमेट पहने 30 वर्षीय अंतरिक्ष यात्री, नीला आकाश, नमक रेगिस्तान, सिनेमाई शैली, 35 मिमी फिल्म पर फिल्माया गया, ज्वलंत रंग शामिल हैं।” pic.twitter.com/0JzpwPUGPB
– ओपनएआई (@OpenAI) 15 फ़रवरी 2024
का एक्स अकाउंट ओपनएआई और सीईओ सैम ऑल्टमैन ने सोरा द्वारा बनाए गए कई वीडियो भी साझा किए, साथ ही उन्हें बनाने के लिए उपयोग किए गए संकेत भी साझा किए। परिणामी वीडियो निर्बाध गति के साथ अत्यधिक विस्तृत दिखाई देते हैं, जिससे बाज़ार में अन्य वीडियो जनरेटरों को कुछ हद तक संघर्ष करना पड़ा है। कंपनी के अनुसार, यह कई पात्रों, कई कैमरा कोणों, विशिष्ट प्रकार की गति और विषय और पृष्ठभूमि के सटीक विवरण के साथ जटिल दृश्य उत्पन्न कर सकता है। यह संभव है क्योंकि टेक्स्ट-टू-वीडियो मॉडल संकेत के साथ-साथ “भौतिक दुनिया में वे चीजें कैसे मौजूद हैं” दोनों का उपयोग करता है।
सोरा मूल रूप से एक प्रसार मॉडल है जो जीपीटी मॉडल के समान ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है। इसी तरह, यह जो डेटा उपभोग करता है और उत्पन्न करता है उसे पैच नामक शब्द में दर्शाया जाता है, जो फिर से टेक्स्ट-जनरेटिंग मॉडल में टोकन के समान है। कंपनी के अनुसार, पैच वीडियो और छवियों का संग्रह है, जो छोटे भागों में बंडल किया गया है। इस विज़ुअल डेटा का उपयोग करके OpenAI को विभिन्न अवधि, रिज़ॉल्यूशन और पहलू अनुपात में वीडियो जेनरेशन मॉडल को प्रशिक्षित करने में सक्षम बनाया गया है। टेक्स्ट-टू-वीडियो जेनरेशन के अलावा, सोरा एक स्थिर छवि भी ले सकता है और उससे एक वीडियो तैयार कर सकता है।
हालाँकि, यह खामियों से रहित भी नहीं है। OpenAI ने इस पर कहा वेबसाइट, “मौजूदा मॉडल में कमज़ोरियाँ हैं। यह एक जटिल दृश्य की भौतिकी का सटीक अनुकरण करने में संघर्ष कर सकता है, और कारण और प्रभाव के विशिष्ट उदाहरणों को नहीं समझ सकता है। उदाहरण के लिए, कोई व्यक्ति कुकी से एक टुकड़ा काट सकता है, लेकिन बाद में, कुकी पर काटने का कोई निशान नहीं हो सकता है।”
संकेत: “एनिमेटेड दृश्य में पिघलती हुई लाल मोमबत्ती के पास घुटने टेकते हुए एक छोटे रोएँदार राक्षस का क्लोज़-अप दिखाया गया है। कला शैली 3डी और यथार्थवादी है, जिसमें प्रकाश और बनावट पर ध्यान दिया गया है। पेंटिंग की मनोदशा आश्चर्य और जिज्ञासा की है, जैसे राक्षस लौ की ओर देखता है… pic.twitter.com/aLMgJPI0y6
– ओपनएआई (@OpenAI) 15 फ़रवरी 2024
यह सुनिश्चित करने के लिए कि एआई टूल का उपयोग डीपफेक या अन्य हानिकारक सामग्री बनाने के लिए नहीं किया जाता है, कंपनी भ्रामक सामग्री का पता लगाने में मदद करने के लिए टूल बना रही है। इसे अपनाने के बाद, यह जेनरेट किए गए वीडियो में C2PA मेटाडेटा का उपयोग करने की भी योजना बना रहा है अभ्यास हाल ही में इसके DALL-E 3 मॉडल के लिए। यह मॉडल को बेहतर बनाने के लिए रेड टीमर्स, विशेष रूप से गलत सूचना, घृणित सामग्री और पूर्वाग्रह के क्षेत्रों में डोमेन विशेषज्ञों के साथ भी काम कर रहा है।
वर्तमान में, यह उत्पाद के बारे में प्रतिक्रिया प्राप्त करने के लिए केवल रेड टीमर्स और कुछ दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के लिए उपलब्ध है।