हर कुछ हफ्तों में कोई न कोई AI लैब एक नया मॉडल लॉन्च करती है और तुरंत दावा करती है कि यह धरती पर सबसे स्मार्ट चीज़ है। फिर एक हफ्ते बाद कोई दूसरी लैब वही करती है। अगर आपने कभी यह समझने की कोशिश की है कि वास्तव में कौन बेहतर है, तो आप शायद MMLU, GPQA, और SWE-bench जैसे नामों वाले चार्ट्स की एक दीवार को घूरते रहे होंगे और आपका दिमाग चकरा गया होगा। मैंने हाल ही में इस रैबिट होल में गोता लगाया, और यहां इसका छोटा वर्शन है: कोई एक स्कोरबोर्ड नहीं है। लोग “बेहतर” को मापने के कम से कम चार पूरी तरह से अलग तरीकों का इस्तेमाल करते हैं, और एक बार जब आपको पता चल जाए कि हर एक वास्तव में क्या करता है, तो पूरा AI लीडरबोर्ड सर्कस बहुत ज्यादा समझ में आने लगता है।