गूगल ने एक और जेनरेटर पेश किया है कृत्रिम होशियारी (एआई) मॉडल जो अनगिनत संख्या में 2डी प्लेटफ़ॉर्मर वीडियो गेम बना सकता है। जिन्न को एक एक्शन-नियंत्रित विश्व मॉडल के रूप में देखा जा रहा है जिसे बिना पर्यवेक्षित वीडियो गेम डेटा पर प्रशिक्षित किया गया था। यह वीडियो गेम के स्तर उत्पन्न करने के लिए पूर्वानुमानित विश्लेषण का उपयोग करता है और एक खेलने योग्य चरित्र को नियंत्रित भी कर सकता है और उसकी गतिविधियों को निर्धारित कर सकता है। दिलचस्प बात यह है कि OpenAI भी पुर: इस महीने की शुरुआत में सोरा नामक एक विश्व मॉडल, जो एक मिनट तक की लंबाई के अतियथार्थवादी वीडियो तैयार कर सकता है।
यह घोषणा Google DeepMind के ओपन-एंडेडनेस टीम लीड, टिम रॉकटाशेल द्वारा एक श्रृंखला के माध्यम से की गई थी। पदों एक्स पर (पहले ट्विटर के नाम से जाना जाता था)। उन्होंने कहा, “हम जिनी को पेश करते हैं, जो विशेष रूप से इंटरनेट वीडियो से प्रशिक्षित एक फाउंडेशन वर्ल्ड मॉडल है जो इमेज प्रॉम्प्ट दिए जाने पर एक्शन-नियंत्रित 2डी दुनिया की एक अंतहीन विविधता उत्पन्न कर सकता है।” जिन्न इस मायने में अद्वितीय है कि यह केवल एक विशिष्ट चीज़ उत्पन्न कर सकता है, और यह एकमात्र वीडियो गेम-जनरेटिंग मॉडल भी है जिसे अब तक सार्वजनिक रूप से घोषित किया गया है।
Google का जिनी AI मॉडल अभी तक जनता के लिए खुला नहीं है और अभी केवल एक शोध मॉडल के रूप में मौजूद है। यही कारण है कि इसकी उपयोगकर्ता-केंद्रित कार्यक्षमताएँ अभी तक ज्ञात नहीं हैं। यह छवियों का उपयोग करके वीडियो गेम स्तर उत्पन्न कर सकता है, लेकिन यह पाठ संकेत या यहां तक कि वीडियो संकेत भी ले सकता है या नहीं यह ज्ञात नहीं है। पेपर का एक प्रीप्रिंट संस्करण था की तैनाती ऑनलाइन जो इसके तकनीकी पहलुओं पर प्रकाश डालता है। एआई मॉडल को 2,00,000 घंटे के वीडियो गेम फुटेज पर बिना पर्यवेक्षण के प्रशिक्षित किया गया था और इसमें 11 बिलियन पैरामीटर शामिल हैं। मॉडल का आर्किटेक्चर तीन अलग-अलग हिस्सों का उपयोग करता है – एक स्पेटियोटेम्पोरल वीडियो टोकननाइज़र, एक ऑटोरेग्रेसिव डायनेमिक्स मॉडल, और एक सरल और स्केलेबल अव्यक्त एक्शन मॉडल।
Google जिन्न कैसे काम करता है
सरल बनाने के लिए, स्पेटियोटेम्पोरल वीडियो टोकननाइज़र वीडियो गेम फुटेज लेता है, इसे डेटासेट के छोटे हिस्सों में तोड़ देता है, जिन्हें टोकन के रूप में जाना जाता है, जिसे फाउंडेशन मॉडल द्वारा उपभोग किया जा सकता है। स्पैटिओटेम्पोरल बताते हैं कि डेटा समय और स्थान दोनों में टूट गया है (उदाहरण के लिए, एक वीडियो को 2-सेकंड क्लिप में तोड़ दिया गया था, लेकिन प्रत्येक फ्रेम को कई टुकड़ों में भी तोड़ दिया गया था)।
इसके बाद ऑटोरेग्रेसिव डायनेमिक मॉडल आता है। ऑटोरेग्रेसिव मॉडल अनिवार्य रूप से अतीत में किसी चीज ने कैसा प्रदर्शन किया है, उसके आधार पर भविष्य की भविष्यवाणी करते हैं, और एक गतिशील मॉडल यह समझने के लिए जिम्मेदार है कि समय के साथ चीजें कैसे बदलती हैं और आगे बढ़ती हैं। तो यह वह हिस्सा है जहां पूर्वानुमानित विश्लेषण शुरू होता है। अंतिम घटक अव्यक्त क्रिया मॉडल है। यहीं पर एआई समझता है कि खेलने योग्य पात्र वीडियो गेम की दुनिया में कैसे चलता और घूमता है।
“जिन्न का सीखा हुआ अव्यक्त कार्य स्थान न केवल विविध और सुसंगत है, बल्कि व्याख्या योग्य भी है। कुछ मोड़ों के बाद, मनुष्य आम तौर पर अर्थपूर्ण रूप से सार्थक कार्यों (जैसे बाएं, दाएं जाना, कूदना आदि) के लिए एक मानचित्रण का पता लगाते हैं,” रॉकटेशेल ने कहा। यह हिस्सा महत्वपूर्ण है क्योंकि यह इस बात पर प्रकाश डालता है कि यह एआई मॉडल जो मुख्य समस्या हल करता है वह न केवल 2डी वीडियो गेम स्तर उत्पन्न करना है, बल्कि यह समझना भी है कि बुनियादी गतिविधियां कैसे होती हैं, और उस जानकारी का उपयोग वास्तविक दुनिया के इलाकों में नेविगेट करने के लिए कैसे किया जा सकता है।
इस पर प्रकाश डालते हुए उन्होंने जोड़ा, “जिन्न का मॉडल सामान्य है और 2डी तक सीमित नहीं है। हम एक जिन्न को रोबोटिक्स डेटा (आरटी-1) पर बिना किसी क्रिया के भी प्रशिक्षित करते हैं, और प्रदर्शित करते हैं कि हम वहां एक क्रिया नियंत्रण योग्य सिम्युलेटर भी सीख सकते हैं। हमारा मानना है कि यह एजीआई के लिए सामान्य विश्व मॉडल की दिशा में एक आशाजनक कदम है।”
बार्सिलोना में मोबाइल वर्ल्ड कांग्रेस में सैमसंग, श्याओमी, रियलमी, वनप्लस, ओप्पो और अन्य कंपनियों के नवीनतम लॉन्च और समाचारों के विवरण के लिए, हमारी वेबसाइट पर जाएँ। MWC 2024 हब.