चैटजीपीटी ने प्रारंभिक स्तर के पाठ्यक्रमों में स्नातकों से बेहतर प्रदर्शन किया, लेकिन बाद में पिछड़ गया


“चैटजीपीटी जैसे बड़े भाषा मॉडल के उदय के बाद से छात्रों द्वारा एआई-जनरेटेड कार्य को अपने परीक्षा असाइनमेंट के रूप में प्रस्तुत करने और अच्छे ग्रेड प्राप्त करने के बारे में बहुत सी वास्तविक रिपोर्टें आई हैं। इसलिए, हमने एक नियंत्रित प्रयोग में एआई धोखाधड़ी के खिलाफ हमारे विश्वविद्यालय की परीक्षा प्रणाली का तनाव परीक्षण किया, “पढ़ना विश्वविद्यालय में मनोविज्ञान और नैदानिक ​​भाषा विज्ञान स्कूल के एक शोधकर्ता पीटर स्कार्फ कहते हैं।

उनकी टीम ने 30 से ज़्यादा फर्जी मनोविज्ञान के छात्र खाते बनाए और उनका इस्तेमाल परीक्षा के सवालों के लिए ChatGPT-4 द्वारा बनाए गए उत्तर प्रस्तुत करने के लिए किया। ये किस्से सच थे – AI का इस्तेमाल ज़्यादातर लोगों को पता नहीं चला और औसतन, ChatGPT ने मानव छात्रों की तुलना में बेहतर स्कोर किया।

सगाई के नियम

स्कार्फ़ की टीम ने पाँच स्नातक मॉड्यूल में एआई-जनरेटेड कार्य प्रस्तुत किया, जिसमें मनोविज्ञान में स्नातक की डिग्री के लिए अध्ययन के सभी तीन वर्षों के दौरान आवश्यक कक्षाएं शामिल थीं। असाइनमेंट या तो छोटे प्रश्नों के लिए 200-शब्द के उत्तर थे या अधिक विस्तृत निबंध, लगभग 1,500 शब्द लंबे थे। “परीक्षा के मार्करों को प्रयोग के बारे में पता नहीं था। एक तरह से, अध्ययन में भाग लेने वालों को पता नहीं था कि वे अध्ययन में भाग ले रहे हैं, लेकिन हमें इसके साथ आगे बढ़ने के लिए आवश्यक अनुमतियाँ मिल गई हैं”, स्कार्फ़ का दावा है।

परीक्षा के प्रश्नों को ChatGPT-4 में कॉपी-पेस्ट करके और उत्तर को 160 शब्दों से कम रखने के संकेत के साथ छोटे सबमिशन तैयार किए गए। निबंधों को उसी तरह से आमंत्रित किया गया था, लेकिन आवश्यक शब्द संख्या को बढ़ाकर 2,000 कर दिया गया था। इस तरह से सीमाएँ निर्धारित करके, स्कार्फ़ की टीम ChatGPT-4 से आवश्यक लंबाई के करीब सामग्री तैयार करवा सकती थी। स्कार्फ़ कहते हैं, “विचार यह था कि निबंधों को छोड़कर, बिना किसी संपादन के उन उत्तरों को प्रस्तुत किया जाए, जहाँ हमने न्यूनतम स्वरूपण लागू किया था।”

कुल मिलाकर, स्कार्फ़ और उनके सहयोगियों ने परीक्षा प्रणाली में 63 AI-जनरेटेड सबमिशन डाले। बिना किसी संपादन या AI के उपयोग को छिपाने के प्रयासों के बावजूद, उनमें से 94 प्रतिशत का पता नहीं चला, और लगभग 84 प्रतिशत को एक ही परीक्षा देने वाले छात्रों के यादृच्छिक रूप से चुने गए समूह की तुलना में बेहतर ग्रेड (लगभग आधा ग्रेड बेहतर) मिले।

स्कार्फ़ कहते हैं, “हमने उन परीक्षाओं को अंक देने वाले लोगों के साथ कई डीब्रीफिंग मीटिंग की और वे काफी हैरान थे।” उनके हैरान होने का एक कारण यह भी था कि जिन AI सबमिशन का पता लगाया गया था, उनमें से ज़्यादातर को इसलिए फ़्लैग नहीं किया गया क्योंकि वे बहुत ज़्यादा दोहराव वाले या रोबोटिक थे – उन्हें इसलिए फ़्लैग किया गया क्योंकि वे बहुत अच्छे थे।

इससे एक प्रश्न उठता है: हम इसके बारे में क्या करें?

एआई-शिकार सॉफ्टवेयर

स्कार्फ़ कहते हैं, “इस अध्ययन के दौरान हमने एआई द्वारा निर्मित सामग्री का पता लगाने की तकनीकों पर बहुत शोध किया।” ऐसा ही एक उपकरण ओपन एआई का जीपीटीज़ीरो है; अन्य में एआई लेखन पहचान प्रणाली शामिल है जैसे कि टर्निटिन द्वारा बनाया गया एक सिस्टम, जो साहित्यिक चोरी का पता लगाने के लिए उपकरण देने में विशेषज्ञता वाली कंपनी है।

स्कार्फ़ ने बताया, “ऐसे उपकरणों के साथ समस्या यह है कि वे आम तौर पर प्रयोगशाला में अच्छा प्रदर्शन करते हैं, लेकिन वास्तविक दुनिया में उनका प्रदर्शन काफ़ी गिर जाता है।” ओपन एआई का दावा है कि जीपीटीजीरो एआई द्वारा उत्पन्न पाठ को 26 प्रतिशत मामलों में “संभावित” एआई के रूप में चिह्नित किया जा सकता है, जबकि 9 प्रतिशत गलत सकारात्मक दर चिंताजनक है। दूसरी ओर, टर्निटिन की प्रणाली विज्ञापित लैब में चैटजीपीटी और जीपीटी-3 द्वारा लिखे गए 97 प्रतिशत लेखन को सौ प्रयासों में से केवल एक गलत सकारात्मक के साथ पता लगाया गया। लेकिन, स्कार्फ़ की टीम के अनुसार, इस सिस्टम के रिलीज़ किए गए बीटा संस्करण ने काफी खराब प्रदर्शन किया।



Source link