ओपनएआई के नए “क्रिटिकजीपीटी” मॉडल को जीपीटी-4 आउटपुट की आलोचना करने के लिए प्रशिक्षित किया गया है

बड़े आकार में / ओपनएआई द्वारा निर्मित एक चित्रण।

गुरुवार को ओपनएआई के शोधकर्ताओं ने खुलासा किया आलोचकGPTचैटजीपीटी द्वारा उत्पन्न कोड में गलतियों की पहचान करने के लिए डिज़ाइन किया गया एक नया एआई मॉडल। इसका उद्देश्य एआई सिस्टम को मनुष्यों की इच्छानुसार व्यवहार करने की प्रक्रिया को बढ़ाना है (जिसे “संरेखण” कहा जाता है) मानवीय प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ), जो मानव समीक्षकों को बड़े भाषा मॉडल (एलएलएम) आउटपुट को अधिक सटीक बनाने में मदद करता है।

जैसा कि एक नए शोध पत्र में बताया गया है, “एलएलएम आलोचक एलएलएम बग्स को पकड़ने में मदद करते हैंओपनएआई ने क्रिटिकजीपीटी को मानव प्रशिक्षकों के लिए एआई सहायक के रूप में कार्य करने के लिए बनाया, जो चैटजीपीटी एआई सहायक द्वारा उत्पन्न प्रोग्रामिंग कोड की समीक्षा करते हैं। क्रिटिकजीपीटी – एलएलएमएस के जीपीटी-4 परिवार पर आधारित – कोड का विश्लेषण करता है और संभावित त्रुटियों को इंगित करता है, जिससे मनुष्यों के लिए उन गलतियों को पहचानना आसान हो जाता है जो अन्यथा किसी का ध्यान नहीं जा सकता है। शोधकर्ताओं ने क्रिटिकजीपीटी को जानबूझकर डाले गए बग के साथ कोड नमूनों के डेटासेट पर प्रशिक्षित किया, इसे विभिन्न कोडिंग त्रुटियों को पहचानना और चिह्नित करना सिखाया।

शोधकर्ताओं ने पाया कि स्वाभाविक रूप से होने वाली एलएलएम त्रुटियों से संबंधित 63 प्रतिशत मामलों में क्रिटिकजीपीटी की आलोचनाओं को मानवीय आलोचनाओं की तुलना में व्याख्याकारों द्वारा अधिक पसंद किया गया और क्रिटिकजीपीटी का उपयोग करने वाली मानव-मशीन टीमों ने अकेले मनुष्यों की तुलना में अधिक व्यापक आलोचनाएं लिखीं, जबकि केवल एआई आलोचनाओं की तुलना में भ्रम (मतिभ्रम) की दर कम रही।

स्वचालित आलोचक का विकास करना

क्रिटिकजीपीटी के विकास में जानबूझकर डाली गई गलतियों वाले बड़ी संख्या में इनपुट पर मॉडल को प्रशिक्षित करना शामिल था। मानव प्रशिक्षकों को चैटजीपीटी द्वारा लिखे गए कोड को संशोधित करने, त्रुटियों को पेश करने और फिर उदाहरण प्रतिक्रिया प्रदान करने के लिए कहा गया था जैसे कि उन्होंने इन बगों की खोज की थी। इस प्रक्रिया ने मॉडल को विभिन्न प्रकार की कोडिंग त्रुटियों की पहचान करने और उनकी आलोचना करने का तरीका सीखने की अनुमति दी।

प्रयोगों में, CriticGPT ने ChatGPT के आउटपुट में डाले गए बग और स्वाभाविक रूप से होने वाली त्रुटियों दोनों को पकड़ने की अपनी क्षमता का प्रदर्शन किया। नए मॉडल की आलोचनाओं को प्रशिक्षकों द्वारा 63 प्रतिशत मामलों में प्राकृतिक बग (उपर्युक्त सांख्यिकी) से जुड़े ChatGPT द्वारा स्वयं उत्पन्न की गई आलोचनाओं से अधिक प्राथमिकता दी गई। यह वरीयता आंशिक रूप से CriticGPT द्वारा कम अनुपयोगी “नाइटपिक्स” उत्पन्न करने और कम झूठे सकारात्मक, या भ्रामक समस्याएं उत्पन्न करने के कारण थी।

शोधकर्ताओं ने एक नई तकनीक भी बनाई है जिसे वे फोर्स सैंपलिंग बीम सर्च (FSBS) कहते हैं। यह विधि CriticGPT को कोड की अधिक विस्तृत समीक्षा लिखने में मदद करती है। यह शोधकर्ताओं को यह समायोजित करने की अनुमति देता है कि CriticGPT समस्याओं की तलाश में कितनी गहनता से काम करता है, साथ ही यह भी नियंत्रित करता है कि यह कितनी बार ऐसी समस्याओं को बना सकता है जो वास्तव में मौजूद नहीं हैं। वे अलग-अलग AI प्रशिक्षण कार्यों के लिए अपनी ज़रूरत के हिसाब से इस संतुलन को बदल सकते हैं।

दिलचस्प बात यह है कि शोधकर्ताओं ने पाया कि CriticGPT की क्षमताएँ सिर्फ़ कोड समीक्षा से कहीं आगे तक फैली हुई हैं। अपने प्रयोगों में, उन्होंने मॉडल को ChatGPT प्रशिक्षण डेटा के एक उपसमूह पर लागू किया, जिसे पहले मानव एनोटेटर्स द्वारा दोषरहित माना गया था। आश्चर्यजनक रूप से, CriticGPT ने इनमें से 24 प्रतिशत मामलों में त्रुटियों की पहचान की – ऐसी त्रुटियाँ जिनकी बाद में मानव समीक्षकों द्वारा पुष्टि की गई। OpenAI का मानना ​​है कि यह गैर-कोड कार्यों के लिए मॉडल की क्षमता को प्रदर्शित करता है और सूक्ष्म गलतियों को पकड़ने की इसकी क्षमता को उजागर करता है, जिन्हें सावधानीपूर्वक मानव मूल्यांकन भी अनदेखा कर सकता है।

इसके आशाजनक परिणामों के बावजूद, सभी AI मॉडल की तरह, CriticGPT की भी सीमाएँ हैं। मॉडल को अपेक्षाकृत छोटे ChatGPT उत्तरों पर प्रशिक्षित किया गया था, जो इसे भविष्य के AI सिस्टम द्वारा निपटाए जाने वाले लंबे, अधिक जटिल कार्यों के मूल्यांकन के लिए पूरी तरह से तैयार नहीं कर सकता है। इसके अतिरिक्त, जबकि CriticGPT कन्फ़्यूज़न को कम करता है, यह उन्हें पूरी तरह से समाप्त नहीं करता है, और मानव प्रशिक्षक अभी भी इन झूठे आउटपुट के आधार पर लेबलिंग गलतियाँ कर सकते हैं।

शोध दल ने माना कि क्रिटिकजीपीटी उन त्रुटियों की पहचान करने में सबसे प्रभावी है जिन्हें कोड के भीतर एक विशिष्ट स्थान पर इंगित किया जा सकता है। हालाँकि, एआई आउटपुट में वास्तविक दुनिया की गलतियाँ अक्सर उत्तर के कई हिस्सों में फैली हो सकती हैं, जो भविष्य के मॉडल पुनरावृत्तियों के लिए एक चुनौती पेश करती हैं।

ओपनएआई अपने प्रशिक्षकों को एआई सहायता प्रदान करते हुए, क्रिटिकजीपीटी जैसे मॉडलों को अपने आरएलएचएफ लेबलिंग पाइपलाइन में एकीकृत करने की योजना बना रहा है। ओपनएआई के लिए, यह एलएलएम सिस्टम से आउटपुट का मूल्यांकन करने के लिए बेहतर उपकरण विकसित करने की दिशा में एक कदम है, जो मनुष्यों के लिए अतिरिक्त सहायता के बिना रेटिंग करना मुश्किल हो सकता है। हालांकि, शोधकर्ता चेतावनी देते हैं कि क्रिटिकजीपीटी जैसे उपकरणों के साथ भी, अत्यधिक जटिल कार्य या प्रतिक्रियाएँ मानव मूल्यांकनकर्ताओं के लिए अभी भी चुनौतीपूर्ण साबित हो सकती हैं – यहाँ तक कि एआई द्वारा सहायता प्राप्त लोगों के लिए भी।

Source link