LLM ची चाचणी कशी करावी: बेंचमार्क्स, अरेना आणि खऱ्या इव्हॅल्स

दर काही आठवड्यांनी कोणती ना कोणती AI लॅब एक नवीन मॉडेल लाँच करते आणि लगेच दावा करते की हे पृथ्वीवरचं सर्वात स्मार्ट मॉडेल आहे. मग एका आठवड्यानंतर दुसरी लॅब तेच करते. खरंच कोणतं मॉडेल चांगलं आहे हे शोधण्याचरा प्रयत्न तुम्ही कधी केला असेल, तर तुम्ही नक्कीच MMLU, GPQA आणि SWE-bench सारख्या नावांच्या चार्ट्सच्या भिंतीकडे बघत राहिला असाल आणि डोकं गरगरलं असेल. मी अलीकडेच या रॅबिट होलमध्ये उतरलो, आणि याची थोडक्यात गोष्ट अशी आहे: इथे एकच स्कोअरबोर्ड नाही. “चांगलं” मोजण्यासाठी लोक किमान चार पूर्णपणे वेगळ्या पद्धती वापरतात, आणि एकदा तुम्हाला प्रत्येक पद्धत नेमकं काय करते हे समजलं, की संपूर्ण AI लीडरबोर्ड सर्कस खूप जास्त अर्थपूर्ण वाटायला लागते.

“कोणता LLM सर्वोत्तम आहे?” याचं एक उत्तर का नाही

सुरुवातीलाच कोणी न सांगणारी गोष्ट म्हणजे: “सर्वोत्तम” हे पूर्णपणे तुम्ही ते कशासाठी वापरताय यावर अवलंबून असतं.

जो मॉडेल कविता लिहिण्यात उत्कृष्ट आहे, तो Python चा बग दुरुस्त करण्यात सामान्य असू शकतो. जो मॉडेल गणित स्पर्धांमध्ये भारी कामगिरी करतो, तो तुम्हाला एक ओबडधोबड, अति-फॉर्मॅट केलेला ईमेल देऊ शकतो. आणि जो मॉडेल प्रत्येक चार्टमध्ये टॉपवर असतो, तो प्रत्येक रिक्वेस्टसाठी 10 पट जास्त खर्च करू शकतो आणि “फक्त” काही पॉइंट्सने मागे असलेल्या मॉडेलपेक्षा लक्षणीयरीत्या हळू उत्तर देऊ शकतो.

त्यामुळे जेव्हा लोक विचारतात “GPT, Claude पेक्षा चांगला आहे का” किंवा “Gemini, Llama पेक्षा चांगला आहे का,” तेव्हा खरं उत्तर असं आहे: कशामध्ये चांगला, कसं मोजलं, आणि कोणत्या बजेटवर तुलना केली? हे काही टाळाटाळ नाही — मुळात हीच संपूर्ण कारण आहे की AI बेंचमार्किंग इंडस्ट्री अस्तित्वात आहे. साधारणपणे, मॉडेलची गुणवत्ता मोजण्याचे मार्ग चार गटांमध्ये विभागले जातात:

स्टँडर्डाइज्ड टेस्ट्स — मॉडेलला आधीच माहीत असलेल्या बरोबर उत्तरांसह प्रश्नांचा एक निश्चित संच दिला जातो, शाळेच्या परीक्षेसारखं.
ह्युमन प्रेफरन्स अरेना — खऱ्या लोकांना दोन निनावी उत्तरं दाखवली जातात आणि त्यांना कोणतं चांगलं आहे यावर मतदान करू दिलं जातं.
LLM-as-a-judge — एका AI मॉडेलचा वापर दुसऱ्या मॉडेलच्या ओपन-एंडेड उत्तरांना ग्रेड देण्यासाठी केला जातो.
रिअल-वर्ल्ड टास्क बेंचमार्क्स — मॉडेलला प्रत्यक्ष कामासारख्या परिस्थितीत टाकलं जातं (हा बग दुरुस्त करा, हे मल्टी-स्टेप टास्क पूर्ण करा) आणि बघितलं जातं की तो तिथपर्यंत पोहोचतो का.

चला, प्रत्येक पद्धत एकेक करून बघूया, कारण “स्मार्ट” म्हणजे काय याची प्रत्येकाची कल्पना अगदी वेगळी आहे.

पद्धत 1: स्टँडर्डाइज्ड टेस्ट अप्रोच

ही सर्वात जुनी आणि सर्वात परिचित पद्धत आहे — मॉडेलला प्रश्नांचा मोठा ढीग द्या, उत्तरं आन्सर-कीशी तपासा, आणि टक्केवारी सांगा. हे म्हणजे बेसिकली AI साठीची SAT आहे.

नॉलेज आणि रिझनिंग टेस्ट्स

यातला सर्वात जुना आणि मोठा नाव म्हणजे MMLU (Massive Multitask Language Understanding), जो लॉ ते अॅनाटॉमी ते अॅब्स्ट्रॅक्ट अल्जिब्रा अशा 57 विषयांमधल्या मल्टिपल-चॉइस प्रश्नांचा संच आहे. अनेक वर्षं हाच तो आकडा होता जो सगळे कोट करत असत. समस्या काय? फ्रॉन्टियर मॉडेल्स आता यावर 90%+ स्कोअर करतात, म्हणजे हे बेसिकली सॅच्युरेट झालं आहे आणि आता चांगल्या मॉडेल्सना उत्कृष्ट मॉडेल्सपासून वेगळं ओळखू शकत नाही [2].

त्यामुळेच लॅब्स अधिक कठीण व्हर्जन्सकडे वळल्या:

MMLU-Pro — तीच कल्पना, पण 4 ऐवजी 10 उत्तर पर्याय (अंदाजाने चांगला स्कोअर मिळवणं खूप कठीण) आणि प्रश्न असे डिझाइन केलेले आहेत की त्यांना खरी रिझनिंग लागते, फक्त लक्षात ठेवणं (recall) पुरेसं नाही.
GPQA Diamond — बायोलॉजी, केमिस्ट्री आणि फिजिक्समधले PhD-लेव्हलचे प्रश्न, इतक्या काळजीपूर्वक लिहिलेले आहेत की त्या विषयातले तज्ज्ञ नसलेले PhD धारकही यावर फक्त सुमारे 34% स्कोअर करतात. हा कमी ह्युमन बेसलाइनच यास उपयुक्त मापदंड बनवतो — जर एखादा मॉडेल 80%+ पार करतो, तर तो खरोखर काहीतरी कठीण करत आहे [2].
Humanity’s Last Exam (HLE) — डोमेन एक्सपर्ट्सनी “मानवी ज्ञानाच्या सीमेवर” लिहिलेले 2,500 प्रश्न, जे STEM पासून ह्युमॅनिटीजपर्यंत सगळं काही कव्हर करतात. मानवी तज्ज्ञ यावर सरासरी सुमारे 90% स्कोअर करतात, तर बाह्य टूल्सशिवाय फ्रॉन्टियर मॉडेल्स साधारण 37-47% च्या आसपास येतात [7]. हे खास यासाठीच तयार केलं गेलं कारण इतर सगळं खूप सोपं झालं होतं.