गूगल आई/ओ 2024 के मुख्य भाषण सत्र में कंपनी को अपनी प्रभावशाली लाइनअप प्रदर्शित करने का मौका मिला कृत्रिम होशियारी (एआई) मॉडल और उपकरण जिन पर यह कुछ समय से काम कर रहा है। पेश की गई अधिकांश सुविधाएं आने वाले महीनों में सार्वजनिक पूर्वावलोकन के लिए उपलब्ध हो जाएंगी। हालाँकि, इवेंट में पूर्वावलोकन की गई सबसे दिलचस्प तकनीक कुछ समय के लिए यहाँ नहीं होगी। द्वारा विकसित गूगल डीपमाइंडइस नए AI सहायक को प्रोजेक्ट एस्ट्रा कहा गया और इसने वास्तविक समय, कंप्यूटर विज़न-आधारित AI इंटरैक्शन को प्रदर्शित किया।
प्रोजेक्ट एस्ट्रा एक एआई मॉडल है जो मौजूदा चैटबॉट्स के लिए बेहद उन्नत कार्य कर सकता है। गूगल एक ऐसी प्रणाली का अनुसरण करता है जहां यह अपने उत्पादन के लिए तैयार मॉडलों को प्रशिक्षित करने के लिए अपने सबसे बड़े और सबसे शक्तिशाली एआई मॉडल का उपयोग करता है। एआई मॉडल के एक ऐसे उदाहरण पर प्रकाश डालते हुए, जो वर्तमान में प्रशिक्षण में है, Google डीपमाइंड के सह-संस्थापक और सीईओ डेमिस हसाबिस ने प्रोजेक्ट एस्ट्रा का प्रदर्शन किया। इसका परिचय देते हुए उन्होंने कहा, “आज, हमारे पास एआई सहायकों के भविष्य के बारे में साझा करने के लिए कुछ रोमांचक नई प्रगति है जिसे हम प्रोजेक्ट एस्ट्रा कह रहे हैं। लंबे समय से, हम एक सार्वभौमिक एआई एजेंट बनाना चाहते थे जो रोजमर्रा की जिंदगी में वास्तव में मददगार हो सके।
हस्साबिस ने कंपनी द्वारा ऐसे एआई एजेंटों के लिए निर्धारित आवश्यकताओं का एक सेट भी सूचीबद्ध किया। उन्हें जटिल और गतिशील वास्तविक दुनिया के माहौल को समझने और उस पर प्रतिक्रिया देने की ज़रूरत है, और उन्हें यह याद रखने की ज़रूरत है कि वे संदर्भ विकसित करने और कार्रवाई करने के लिए क्या देखते हैं। इसके अलावा, इसे सिखाने योग्य और व्यक्तिगत भी होना चाहिए ताकि यह नए कौशल सीख सके और बिना किसी देरी के बातचीत कर सके।
उस विवरण के साथ, डीपमाइंड सीईओ ने एक डेमो वीडियो दिखाया जहां एक उपयोगकर्ता को कैमरा ऐप खोलकर स्मार्टफोन पकड़े हुए देखा जा सकता है। उपयोगकर्ता एआई के साथ बात करता है और एआई तुरंत प्रतिक्रिया देता है, विभिन्न दृष्टि-आधारित प्रश्नों का उत्तर देता है। एआई संदर्भ के लिए दृश्य जानकारी का उपयोग करने और आवश्यक जेनरेटर क्षमताओं से संबंधित प्रश्नों के उत्तर देने में भी सक्षम था। उदाहरण के लिए, उपयोगकर्ता ने एआई को कुछ क्रेयॉन दिखाए और एआई से अनुप्रास के साथ इसका वर्णन करने को कहा। बिना किसी देरी के, चैटबॉट कहता है, “क्रिएटिव क्रेयॉन ख़ुशी से रंगते हैं। वे निश्चित रूप से रंगीन रचनाएँ तैयार करते हैं।
लेकिन वह सब नहीं था। वीडियो में आगे यूजर खिड़की की तरफ इशारा करता है, जहां से कुछ इमारतें और सड़कें नजर आ रही हैं. जब पड़ोस के बारे में पूछा गया, तो एआई तुरंत सही उत्तर देता है। यह एआई मॉडल की कंप्यूटर विज़न प्रोसेसिंग की क्षमता और इसे प्रशिक्षित करने के लिए लगने वाले विशाल विज़ुअल डेटासेट को दर्शाता है। लेकिन शायद सबसे दिलचस्प प्रदर्शन तब था जब एआई से उपयोगकर्ता के चश्मे के बारे में पूछा गया। वे कुछ सेकंड के लिए स्क्रीन पर दिखाई दिए और वह पहले ही स्क्रीन छोड़ चुका था। फिर भी, AI अपनी स्थिति को याद रख सकता है और उपयोगकर्ता को इसके बारे में मार्गदर्शन कर सकता है।
प्रोजेक्ट एस्ट्रा सार्वजनिक या निजी पूर्वावलोकन में उपलब्ध नहीं है। Google अभी भी मॉडल पर काम कर रहा है, और उसे AI सुविधा के उपयोग के मामलों का पता लगाना है और यह तय करना है कि इसे उपयोगकर्ताओं के लिए कैसे उपलब्ध कराया जाए। यह प्रदर्शन AI द्वारा अब तक का सबसे हास्यास्पद कारनामा होता, लेकिन एक दिन पहले OpenAI के स्प्रिंग अपडेट इवेंट ने इसकी कुछ गड़गड़ाहट छीन ली। इसके आयोजन के दौरान, ओपनएआई GPT-4o का अनावरण किया गया जिसमें समान क्षमताओं और भावनात्मक आवाज़ों का प्रदर्शन किया गया जिसने AI ध्वनि को और अधिक मानवीय बना दिया।