मशीन-लर्निंग

LLM का टेस्ट कैसे करें: बेंचमार्क, एरीना, और असली एवल्स
हर कुछ हफ्तों में कोई न कोई AI लैब एक नया मॉडल लॉन्च करती है और तुरंत दावा करती है कि यह धरती पर सबसे स्मार्ट चीज़ है। फिर एक हफ्ते बाद कोई दूसरी लैब वही करती है। अगर आपने कभी यह समझने की कोशिश की है कि वास्तव में कौन बेहतर है, तो आप शायद MMLU, GPQA, और SWE-bench जैसे नामों वाले चार्ट्स की एक दीवार को घूरते रहे होंगे और आपका दिमाग चकरा गया होगा। मैंने हाल ही में इस रैबिट होल में गोता लगाया, और यहां इसका छोटा वर्शन है: कोई एक स्कोरबोर्ड नहीं है। लोग “बेहतर” को मापने के कम से कम चार पूरी तरह से अलग तरीकों का इस्तेमाल करते हैं, और एक बार जब आपको पता चल जाए कि हर एक वास्तव में क्या करता है, तो पूरा AI लीडरबोर्ड सर्कस बहुत ज्यादा समझ में आने लगता है।
AI में लूप्स: ये क्या हैं और हर कोई इनकी बात क्यों कर रहा है
तीन लोगों से पूछिए कि इस समय AI में “लूप” का क्या मतलब है और आपको तीन अलग-अलग जवाब मिलेंगे। एक कहेगा एजेंट लूप। दूसरा मॉडल कोलैप्स और फीडबैक लूप्स की बात करने लगेगा। तीसरा किसी कंप्लायंस मीटिंग में सुने ह्यूमन-इन-द-लूप का ज़िक्र करेगा। ये सभी सही हैं, और बिलकुल यही वजह है कि यह शब्द इतना उलझाने वाला बन गया है। मैं 8 साल से ज़्यादा समय से सॉफ़्टवेयर लिख रहा हूँ, और मैंने बहुत-से शब्दजाल को घूम-फिरकर वापस आते देखा है। पर “लूप” खास है क्योंकि यह एक ट्रेंड नहीं है — यह कम से कम चार अलग-अलग विचार हैं जो संयोग से एक ही शब्द साझा करते हैं, और ये सभी लगभग एक ही समय पर चर्चा में आए। तो चलिए इन्हें सुलझाते हैं।
एआई में न्यूरॉन्स: सिर्फ फंक्शन नहीं
अगर आपने तकनीकी क्षेत्रों में “तंत्रिका नेटवर्क” शब्द सुना है, तो आप शायद कुछ जैविक कल्पना करते हैं। न्यूरॉन शब्द शुरुआती लोगों को यह सोचने के लिए प्रेरित कर सकता है कि उन्हें एआई के साथ काम करने के लिए मस्तिष्क जीव विज्ञान को समझने की जरूरत है। लेकिन वास्तव में उन्हें नहीं करनी चाहिए। एक न्यूरॉन वास्तव में क्या करता है और यह कोड में लिखे गए फंक्शन से कैसे अलग है - इस बारे में भ्रम असली है। और वह अंतर महत्वपूर्ण है [1][2]।