गूगल और मेटा उल्लेखनीय बनाया गया कृत्रिम होशियारी (एआई) ने गुरुवार को महत्वपूर्ण प्रगति के साथ नए मॉडल का अनावरण करते हुए घोषणाएं कीं। खोज दिग्गज ने जेमिनी 1.5 का अनावरण किया, जो एक अद्यतन एआई मॉडल है जो विभिन्न तौर-तरीकों में लंबे संदर्भ की समझ के साथ आता है। इस बीच, मेटा ने अपने वीडियो ज्वाइंट एंबेडिंग प्रेडिक्टिव आर्किटेक्चर (वी-जेईपीए) मॉडल को जारी करने की घोषणा की, जो विजुअल मीडिया के माध्यम से उन्नत मशीन लर्निंग (एमएल) के लिए एक गैर-जेनेरेटिव शिक्षण पद्धति है। दोनों उत्पाद एआई क्षमताओं की खोज के नए तरीके पेश करते हैं। विशेष रूप से, OpenAI भी पुर: गुरुवार को इसका पहला टेक्स्ट-टू-वीडियो जेनरेशन मॉडल सोरा।
Google जेमिनी 1.5 मॉडल विवरण
Google DeepMind के सीईओ डेमिस हसाबिस ने एक के माध्यम से जेमिनी 1.5 की रिलीज़ की घोषणा की ब्लॉग भेजा. नया मॉडल ट्रांसफॉर्मर एंड मिक्सचर ऑफ एक्सपर्ट्स (एमओई) आर्किटेक्चर पर बनाया गया है। हालांकि इसके अलग-अलग संस्करण होने की उम्मीद है, फिलहाल केवल जेमिनी 1.5 प्रो मॉडल को शुरुआती परीक्षण के लिए जारी किया गया है। हस्साबिस ने कहा कि मध्यम आकार का मल्टीमॉडल मॉडल जेमिनी 1.0 अल्ट्रा के समान स्तर पर कार्य कर सकता है जो कंपनी का सबसे बड़ा जेनरेटर मॉडल है और है उपलब्ध Google One AI प्रीमियम योजना के साथ जेमिनी एडवांस्ड सदस्यता के रूप में।
जेमिनी 1.5 के साथ सबसे बड़ा सुधार लंबी-संदर्भ जानकारी को संसाधित करने की इसकी क्षमता है। मानक प्रो संस्करण 1,28,000 टोकन संदर्भ विंडो के साथ आता है। इसकी तुलना में, जेमिनी 1.0 में 32,000 टोकन की एक संदर्भ विंडो थी। टोकन को शब्दों, छवियों, वीडियो, ऑडियो या कोड के संपूर्ण भागों या उपखंडों के रूप में समझा जा सकता है, जो एक फाउंडेशन मॉडल द्वारा जानकारी को संसाधित करने के लिए बिल्डिंग ब्लॉक्स के रूप में कार्य करते हैं। “एक मॉडल की संदर्भ विंडो जितनी बड़ी होगी, वह उतनी ही अधिक जानकारी ले सकता है और दिए गए प्रॉम्प्ट में संसाधित कर सकता है – जिससे उसका आउटपुट अधिक सुसंगत, प्रासंगिक और उपयोगी हो जाता है,” हस्साबिस ने समझाया।
मानक प्रो संस्करण के साथ, Google 1 मिलियन टोकन तक की संदर्भ विंडो के साथ एक विशेष मॉडल भी जारी कर रहा है। इसे निजी पूर्वावलोकन में डेवलपर्स के एक सीमित समूह और उसके एंटरप्राइज़ ग्राहकों को पेश किया जा रहा है। हालाँकि इसके लिए कोई समर्पित प्लेटफ़ॉर्म नहीं है, इसे Google के AI स्टूडियो, जेनरेटिव AI मॉडल के परीक्षण के लिए क्लाउड कंसोल टूल और वर्टेक्स AI के माध्यम से आज़माया जा सकता है। Google का कहना है कि यह संस्करण एक घंटे के वीडियो, 11 घंटे के ऑडियो, 30,000 से अधिक लाइनों के कोडबेस या 7,00,000 से अधिक शब्दों को एक बार में प्रोसेस कर सकता है।
में एक डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर मेटा ने सार्वजनिक रूप से वी-जेईपीए जारी किया। यह एक जेनरेटिव एआई मॉडल नहीं है, बल्कि एक शिक्षण पद्धति है जो एमएल सिस्टम को वीडियो देखकर भौतिक दुनिया को समझने और मॉडल करने में सक्षम बनाती है। कंपनी ने इसे उन्नत मशीन इंटेलिजेंस (एएमआई) की दिशा में एक महत्वपूर्ण कदम बताया, जो कि तीन ‘एआई के गॉडफादर’ में से एक, यान लेकन का दृष्टिकोण है।
संक्षेप में, यह एक पूर्वानुमानित विश्लेषण मॉडल है, जो पूरी तरह से दृश्य मीडिया से सीखता है। यह न केवल समझ सकता है कि वीडियो में क्या चल रहा है, बल्कि यह भी भविष्यवाणी कर सकता है कि आगे क्या होगा। इसे प्रशिक्षित करने के लिए, कंपनी ने एक नई मास्किंग तकनीक का उपयोग करने का दावा किया है, जहां वीडियो के कुछ हिस्सों को समय और स्थान दोनों में छिपा दिया गया था। इसका मतलब यह है कि वीडियो में कुछ फ़्रेम पूरी तरह से हटा दिए गए थे, जबकि कुछ अन्य फ़्रेमों में ब्लैक-आउट टुकड़े थे, जिसने मॉडल को वर्तमान फ़्रेम के साथ-साथ अगले फ़्रेम दोनों की भविष्यवाणी करने के लिए मजबूर किया। कंपनी के अनुसार, मॉडल दोनों कार्य कुशलता से करने में सक्षम था। विशेष रूप से, मॉडल 10 सेकंड तक के वीडियो की भविष्यवाणी और विश्लेषण कर सकता है।
उदाहरण के लिए, यदि मॉडल को किसी के पेन डालने, पेन उठाने और पेन डालने का नाटक करने, लेकिन वास्तव में ऐसा नहीं करने के बीच अंतर करने में सक्षम होने की आवश्यकता है, तो वी-जेईपीए इसके लिए पिछले तरीकों की तुलना में काफी अच्छा है। उच्च-ग्रेड एक्शन पहचान कार्य, मेटा ने एक में कहा ब्लॉग भेजा.
वर्तमान में, वी-जेईपीए मॉडल केवल दृश्य डेटा का उपयोग करता है, जिसका अर्थ है कि वीडियो में कोई ऑडियो इनपुट नहीं है। मेटा अब एमएल मॉडल में वीडियो के साथ-साथ ऑडियो को भी शामिल करने की योजना बना रहा है। कंपनी का एक अन्य लक्ष्य लंबे वीडियो में अपनी क्षमताओं में सुधार करना है।