दर काही आठवड्यांनी कोणती ना कोणती AI लॅब एक नवीन मॉडेल लाँच करते आणि लगेच दावा करते की हे पृथ्वीवरचं सर्वात स्मार्ट मॉडेल आहे. मग एका आठवड्यानंतर दुसरी लॅब तेच करते. खरंच कोणतं मॉडेल चांगलं आहे हे शोधण्याचरा प्रयत्न तुम्ही कधी केला असेल, तर तुम्ही नक्कीच MMLU, GPQA आणि SWE-bench सारख्या नावांच्या चार्ट्सच्या भिंतीकडे बघत राहिला असाल आणि डोकं गरगरलं असेल. मी अलीकडेच या रॅबिट होलमध्ये उतरलो, आणि याची थोडक्यात गोष्ट अशी आहे: इथे एकच स्कोअरबोर्ड नाही. “चांगलं” मोजण्यासाठी लोक किमान चार पूर्णपणे वेगळ्या पद्धती वापरतात, आणि एकदा तुम्हाला प्रत्येक पद्धत नेमकं काय करते हे समजलं, की संपूर्ण AI लीडरबोर्ड सर्कस खूप जास्त अर्थपूर्ण वाटायला लागते.