LLM का टेस्ट कैसे करें: बेंचमार्क, एरीना, और असली एवल्स

हर कुछ हफ्तों में कोई न कोई AI लैब एक नया मॉडल लॉन्च करती है और तुरंत दावा करती है कि यह धरती पर सबसे स्मार्ट चीज़ है। फिर एक हफ्ते बाद कोई दूसरी लैब वही करती है। अगर आपने कभी यह समझने की कोशिश की है कि वास्तव में कौन बेहतर है, तो आप शायद MMLU, GPQA, और SWE-bench जैसे नामों वाले चार्ट्स की एक दीवार को घूरते रहे होंगे और आपका दिमाग चकरा गया होगा। मैंने हाल ही में इस रैबिट होल में गोता लगाया, और यहां इसका छोटा वर्शन है: कोई एक स्कोरबोर्ड नहीं है। लोग “बेहतर” को मापने के कम से कम चार पूरी तरह से अलग तरीकों का इस्तेमाल करते हैं, और एक बार जब आपको पता चल जाए कि हर एक वास्तव में क्या करता है, तो पूरा AI लीडरबोर्ड सर्कस बहुत ज्यादा समझ में आने लगता है।

“कौन सा LLM सबसे बेहतर है?” का कोई एक जवाब क्यों नहीं है

यहां वह बात है जो कोई आपको शुरुआत में नहीं बताता: “सबसे बेहतर” पूरी तरह इस पर निर्भर करता है कि आप इसे किसके लिए इस्तेमाल कर रहे हैं।

जो मॉडल कविता लिखने में शानदार है, वह Python के बग ठीक करने में औसत हो सकता है। जो मॉडल मैथ कॉम्पिटिशन में कमाल करता है, वह आपको एक भद्दा, ओवर-फॉर्मेटेड ईमेल दे सकता है। और जो मॉडल हर चार्ट में टॉप करता है, वह प्रति रिक्वेस्ट 10 गुना ज्यादा खर्च कर सकता है और उस मॉडल से काफी धीमा जवाब दे सकता है जो “सिर्फ” कुछ पॉइंट्स पीछे है।

तो जब लोग पूछते हैं “क्या GPT, Claude से बेहतर है” या “क्या Gemini, Llama से बेहतर है,” तो ईमानदार जवाब यह है: किस चीज़ में बेहतर, कैसे मापा गया, और किस बजट पर तुलना की गई? यह कोई बहाना नहीं है — यही असल में पूरी वजह है कि AI बेंचमार्किंग इंडस्ट्री मौजूद है। मोटे तौर पर, लोग मॉडल की क्वालिटी मापने के तरीकों को चार श्रेणियों में बांटते हैं:

स्टैंडर्डाइज्ड टेस्ट — मॉडल को सवालों का एक तय सेट दिया जाता है जिनके सही जवाब पहले से पता हैं, जैसे स्कूल का एग्ज़ाम।
ह्यूमन प्रेफरेंस एरीना — असली लोगों को दो अनाम (anonymous) जवाब दिखाए जाते हैं और उन्हें वोट करने दिया जाता है कि कौन सा बेहतर है।
LLM-as-a-judge — एक AI मॉडल का इस्तेमाल दूसरे मॉडल के ओपन-एंडेड जवाबों को ग्रेड करने के लिए किया जाता है।
रियल-वर्ल्ड टास्क बेंचमार्क — मॉडल को किसी असली काम के करीब की स्थिति में डाल दिया जाता है (इस बग को ठीक करो, इस मल्टी-स्टेप टास्क को पूरा करो) और देखा जाता है कि वह वहां तक पहुंच पाता है या नहीं।

आइए हर एक को बारी-बारी से देखते हैं, क्योंकि इन सबका “स्मार्ट” होने का मतलब बिल्कुल अलग-अलग है।

तरीका 1: स्टैंडर्डाइज्ड टेस्ट अप्रोच

यह सबसे पुराना और सबसे जाना-पहचाना तरीका है — मॉडल को सवालों का एक बड़ा ढेर दो, जवाबों को आंसर-की से चेक करो, और एक प्रतिशत (percentage) रिपोर्ट करो। यह बेसिकली AI के लिए SAT है।

नॉलेज और रीजनिंग टेस्ट

इसमें सबसे पुराना और सबसे बड़ा नाम है MMLU (Massive Multitask Language Understanding), जो लॉ से एनाटॉमी से एब्स्ट्रैक्ट एल्जेब्रा तक 57 विषयों में फैले मल्टीपल-चॉइस सवालों का एक सेट है। सालों तक यही वह नंबर था जिसे हर कोई कोट करता था। दिक्कत? फ्रंटियर मॉडल अब इस पर 90%+ स्कोर करते हैं, यानी यह बेसिकली सैचुरेट हो गया है और अब अच्छे मॉडलों को बेहतरीन मॉडलों से अलग नहीं बता सकता [2]।

इसलिए लैब्स ज्यादा मुश्किल वर्जन की तरफ बढ़ गईं:

MMLU-Pro — वही आइडिया, लेकिन 4 के बजाय 10 आंसर ऑप्शन के साथ (अच्छा स्कोर अंदाज़े से पाना बहुत मुश्किल) और सवाल इस तरह डिज़ाइन किए गए हैं कि उनके लिए असली रीजनिंग चाहिए, सिर्फ याद रखने (recall) से काम नहीं चलेगा।
GPQA Diamond — बायोलॉजी, केमिस्ट्री और फिज़िक्स में PhD-लेवल के सवाल, इतनी सावधानी से लिखे गए हैं कि गैर-एक्सपर्ट PhD होल्डर्स भी इन पर सिर्फ लगभग 34% स्कोर करते हैं। यह कम ह्यूमन बेसलाइन ही इसे एक उपयोगी मापदंड बनाती है — अगर कोई मॉडल 80%+ पार कर ले, तो वह वाकई कुछ मुश्किल कर रहा है [2]।
Humanity’s Last Exam (HLE) — डोमेन एक्सपर्ट्स द्वारा लिखे गए 2,500 सवाल, जो “मानव ज्ञान की सीमा पर” हैं, और STEM से लेकर ह्यूमैनिटीज़ तक सब कुछ कवर करते हैं। इंसान एक्सपर्ट्स इस पर औसतन लगभग 90% स्कोर करते हैं, जबकि बिना एक्सटर्नल टूल्स वाले फ्रंटियर मॉडल लगभग 37-47% पर ही टिकते हैं [7]। यह खास तौर पर इसलिए बनाया गया क्योंकि बाकी सब कुछ बहुत आसान हो गया था।

कोडिंग और मैथ टेस्ट

कोड के लिए, HumanEval पहले सबसे पॉपुलर था — 164 छोटी Python प्रॉब्लम्स, जिनमें से हर एक को यूनिट टेस्ट के खिलाफ चेक किया जाता है। यह अब टॉप मॉडलों के लिए 93% से ऊपर है, जिसका मतलब फिर से यही है कि यह बेसिकली सैचुरेट हो गया है [2]। असली एक्शन अब SWE-bench Verified की तरफ शिफ्ट हो गया है, जो मॉडलों को पॉपुलर ओपन-सोर्स रिपॉज़िटरी से असली GitHub इश्यूज़ के सामने खड़ा करता है और चेक करता है कि उनका पैच वाकई टेस्ट सूट को पास कराता है या नहीं। टॉप मॉडल अब “Verified” सेट पर 80-89% रेंज में पहुंच रहे हैं, जबकि उससे कहीं ज्यादा मुश्किल “Pro” वैरिएंट — मल्टी-फाइल, मल्टी-लैंग्वेज, असली आर्किटेक्चरल कॉम्प्लेक्सिटी — स्कोर को 55-65% रेंज में ही रोक देता है [6]।

मैथ के मामले में, AIME (American Invitational Mathematics Examination) के सवाल “रीजनिंग” मॉडलों के लिए स्टैंडर्ड टॉर्चर टेस्ट बन गए हैं। यहां फर्क बहुत बड़ा है: जनरल-पर्पस मॉडल अक्सर 7-35% रेंज में स्कोर करते हैं, जबकि डेडिकेटेड रीजनिंग मॉडल वही सवालों पर 90-100% तक पहुंच जाते हैं [16]। यह एक बेंचमार्क शायद सबसे साफ सबूत है कि “रीजनिंग मोड” (वह मॉडल जो जवाब देने से पहले स्टेप-बाय-स्टेप सोचता है) सच में एक अलग क्षमता है, सिर्फ मार्केटिंग नहीं।

यहां एक क्विक चीट शीट है कि ये टेस्ट वास्तव में क्या मापते हैं:

बेंचमार्क	यह क्या टेस्ट करता है	कैसे ग्रेड होता है	2026 में स्टेटस
MMLU	सामान्य ज्ञान, 57 विषय	मल्टीपल-चॉइस, ऑटो-स्कोर्ड	सैचुरेटेड (90%+) [2]
MMLU-Pro	ज्यादा मुश्किल नॉलेज + रीजनिंग	10-ऑप्शन मल्टीपल-चॉइस	एक्टिव, फर्क करने वाला
GPQA Diamond	PhD-लेवल साइंस रीजनिंग	एक्सपर्ट-लिखित मल्टीपल-चॉइस	एक्टिव, ह्यूमन बेसलाइन ~34% [2]
HumanEval	बेसिक Python कोड जेनरेशन	यूनिट टेस्ट, pass@1	सैचुरेटेड (93%+) [2]
SWE-bench Verified	असली GitHub बग फिक्स, एंड-टू-एंड	ऑटोमेटेड टेस्ट सूट पास/फेल	एक्टिव, ~80-89% टॉप मॉडल [6]
AIME	कॉम्पिटिशन-लेवल मैथ	सटीक न्यूमेरिक जवाब	नॉन-रीजनिंग मॉडलों के लिए एक्टिव [16]
Humanity’s Last Exam	सभी क्षेत्रों के एक्सपर्ट सवाल	सटीक/शॉर्ट आंसर मैच	एक्टिव, बिना टूल्स के ~37-47% [7]
ARC-AGI-2	नए विज़ुअल पैटर्न पज़ल	सटीक ग्रिड मैच	ज्यादातर अनसुलझा

जो पैटर्न आपको दिखेगा: जैसे ही कोई बेंचमार्क “सॉल्व” हो जाता है (सब 90%+ स्कोर करने लगते हैं), वह बेकार हो जाता है, और फील्ड एक नया, ज्यादा मुश्किल बेंचमार्क बना लेती है। पिछले दो सालों में कम से कम चार बड़े बेंचमार्क के साथ ऐसा हो चुका है। यह बेसिकली टेस्ट बनाने वालों और मॉडल बनाने वालों के बीच एक आर्म्स रेस है।

तरीका 2: टेस्ट छोड़ो, सीधे इंसानों से पूछो

स्टैंडर्डाइज्ड टेस्ट यह मापने में बहुत अच्छे हैं कि “क्या मॉडल ने टेक्स्टबुक वाला सही जवाब दिया,” लेकिन यह मापने में बेकार हैं कि “क्या मॉडल ने मदद करने वाला, अच्छी तरह लिखा गया, पढ़ने में सुखद जवाब दिया।” इसके लिए, AI वर्ल्ड ने कुछ ऐसा बनाया जो एग्ज़ाम से कहीं ज्यादा डेटिंग ऐप जैसा दिखता है।

सबसे मशहूर उदाहरण है LMArena (पहले Chatbot Arena के नाम से जाना जाता था, जिसे LMSYS ग्रुप चलाता है, और 2026 की शुरुआत में फिर से सिर्फ “Arena” के नाम से रीब्रांड किया गया) [1]। यह इस तरह काम करता है:

आप एक प्रॉम्प्ट टाइप करते हैं — जो भी आप चाहें।
रैंडमली चुने गए दो अलग-अलग मॉडल, दोनों आपके प्रॉम्प्ट का जवाब देते हैं।
उनके नाम छिपे रहते हैं। आपको सिर्फ “Model A” और “Model B” साथ-साथ दिखते हैं।
आप उसके लिए वोट करते हैं जिसने आपको बेहतर जवाब दिया लगता है।

इसे लाखों वोटों से मल्टीप्लाई करें — इस प्लेटफॉर्म पर अब तक 60 लाख से ज्यादा वोट जमा हो चुके हैं — और आपको हर मॉडल के लिए एक Elo-स्टाइल रेटिंग मिलती है, वही स्टैटिस्टिकल सिस्टम जो शतरंज खिलाड़ियों को रैंक करने के लिए इस्तेमाल होता है [1]। किसी मॉडल की रेटिंग तब बढ़ती है जब वह ज्यादा रेटिंग वाले विरोधी को हराता है, और तब घटती है जब वह कम रेटिंग वाले से हार जाता है, इसलिए यह गणित खुद-ब-खुद “शेड्यूल की मजबूती” का हिसाब रख लेता है।