फेसबुक मालिक मेटा शुक्रवार को कहा गया कि वह अपने अनुसंधान प्रभाग से नए एआई मॉडल का एक बैच जारी कर रहा है, जिसमें एक “स्व-सिखाया मूल्यांकनकर्ता” भी शामिल है जो एआई विकास प्रक्रिया में कम मानवीय भागीदारी की दिशा में एक रास्ता पेश कर सकता है।
यह रिलीज़ अगस्त के पेपर में मेटा द्वारा टूल की शुरूआत के बाद हुई है, जिसमें बताया गया है कि यह मॉडल की प्रतिक्रियाओं के बारे में विश्वसनीय निर्णय लेने के लिए ओपनएआई के हाल ही में जारी ओ1 मॉडल द्वारा उपयोग की जाने वाली उसी “विचार श्रृंखला” तकनीक पर कैसे निर्भर करता है।
उस तकनीक में जटिल समस्याओं को छोटे तार्किक चरणों में तोड़ना शामिल है और यह विज्ञान, कोडिंग और गणित जैसे विषयों में चुनौतीपूर्ण समस्याओं पर प्रतिक्रियाओं की सटीकता में सुधार करती प्रतीत होती है।
मेटा के शोधकर्ताओं ने मूल्यांकनकर्ता मॉडल को प्रशिक्षित करने के लिए पूरी तरह से एआई-जनरेटेड डेटा का उपयोग किया, साथ ही उस स्तर पर मानव इनपुट को भी समाप्त कर दिया।
परियोजना के पीछे के दो मेटा शोधकर्ताओं ने रॉयटर्स को बताया कि एआई का मूल्यांकन करने के लिए एआई का उपयोग करने की क्षमता स्वायत्त एआई एजेंटों के निर्माण की दिशा में संभावित मार्ग पर एक झलक प्रदान करती है जो अपनी गलतियों से सीख सकते हैं।
एआई क्षेत्र में कई लोग ऐसे एजेंटों की कल्पना डिजिटल सहायक के रूप में करते हैं जो मानवीय हस्तक्षेप के बिना कार्यों की एक विस्तृत श्रृंखला को पूरा करने के लिए पर्याप्त बुद्धिमान हों।
स्व-सुधार मॉडल आज इस्तेमाल की जाने वाली अक्सर महंगी और अप्रभावी प्रक्रिया की आवश्यकता को कम कर सकते हैं जिसे मानव फीडबैक से सुदृढीकरण सीखना कहा जाता है, जिसके लिए मानव एनोटेटर्स से इनपुट की आवश्यकता होती है, जिनके पास डेटा को सटीक रूप से लेबल करने और जटिल गणित और लेखन प्रश्नों के उत्तरों को सत्यापित करने के लिए विशेष विशेषज्ञता होनी चाहिए। सही हैं.
शोधकर्ताओं में से एक, जेसन वेस्टन ने कहा, “हमें उम्मीद है, जैसे-जैसे एआई अधिक से अधिक सुपर-मानवीय होता जाएगा, यह अपने काम की जांच करने में बेहतर और बेहतर होता जाएगा, ताकि यह वास्तव में औसत मानव से बेहतर हो।”
उन्होंने कहा, “एआई के इस तरह के सुपर-मानवीय स्तर तक पहुंचने के विचार के लिए स्व-सिखाया जाने और स्व-मूल्यांकन करने में सक्षम होने का विचार मूल रूप से महत्वपूर्ण है।”
Google और एंथ्रोपिक सहित अन्य कंपनियों ने भी RLAIF, या AI फीडबैक से सुदृढीकरण सीखने की अवधारणा पर शोध प्रकाशित किया है। हालाँकि, मेटा के विपरीत, वे कंपनियाँ सार्वजनिक उपयोग के लिए अपने मॉडल जारी नहीं करती हैं।
मेटा द्वारा शुक्रवार को जारी किए गए अन्य एआई टूल में कंपनी के छवि-पहचान सेगमेंट एनीथिंग मॉडल का अपडेट शामिल है, एक उपकरण जो एलएलएम प्रतिक्रिया पीढ़ी के समय और डेटासेट को गति देता है जिसका उपयोग नई अकार्बनिक सामग्रियों की खोज में सहायता के लिए किया जा सकता है।
© थॉमसन रॉयटर्स 2024