मशीन-लर्निंग

LLM का टेस्ट कैसे करें: बेंचमार्क, एरीना, और असली एवल्स

हर कुछ हफ्तों में कोई न कोई AI लैब एक नया मॉडल लॉन्च करती है और तुरंत दावा करती है कि यह धरती पर सबसे स्मार्ट चीज़ है। फिर एक हफ्ते बाद कोई दूसरी लैब वही करती है। अगर आपने कभी यह समझने की कोशिश की है कि वास्तव में कौन बेहतर है, तो आप शायद MMLU, GPQA, और SWE-bench जैसे नामों वाले चार्ट्स की एक दीवार को घूरते रहे होंगे और आपका दिमाग चकरा गया होगा। मैंने हाल ही में इस रैबिट होल में गोता लगाया, और यहां इसका छोटा वर्शन है: कोई एक स्कोरबोर्ड नहीं है। लोग “बेहतर” को मापने के कम से कम चार पूरी तरह से अलग तरीकों का इस्तेमाल करते हैं, और एक बार जब आपको पता चल जाए कि हर एक वास्तव में क्या करता है, तो पूरा AI लीडरबोर्ड सर्कस बहुत ज्यादा समझ में आने लगता है।

15 Jun 2026 AI LLM बेंचमार्क मशीन लर्निंग

AI में लूप्स: ये क्या हैं और हर कोई इनकी बात क्यों कर रहा है

तीन लोगों से पूछिए कि इस समय AI में “लूप” का क्या मतलब है और आपको तीन अलग-अलग जवाब मिलेंगे। एक कहेगा एजेंट लूप। दूसरा मॉडल कोलैप्स और फीडबैक लूप्स की बात करने लगेगा। तीसरा किसी कंप्लायंस मीटिंग में सुने ह्यूमन-इन-द-लूप का ज़िक्र करेगा। ये सभी सही हैं, और बिलकुल यही वजह है कि यह शब्द इतना उलझाने वाला बन गया है। मैं 8 साल से ज़्यादा समय से सॉफ़्टवेयर लिख रहा हूँ, और मैंने बहुत-से शब्दजाल को घूम-फिरकर वापस आते देखा है। पर “लूप” खास है क्योंकि यह एक ट्रेंड नहीं है — यह कम से कम चार अलग-अलग विचार हैं जो संयोग से एक ही शब्द साझा करते हैं, और ये सभी लगभग एक ही समय पर चर्चा में आए। तो चलिए इन्हें सुलझाते हैं।

08 Jun 2026 ai एजेंट मशीन-लर्निंग

एआई में न्यूरॉन्स: सिर्फ फंक्शन नहीं

अगर आपने तकनीकी क्षेत्रों में “तंत्रिका नेटवर्क” शब्द सुना है, तो आप शायद कुछ जैविक कल्पना करते हैं। न्यूरॉन शब्द शुरुआती लोगों को यह सोचने के लिए प्रेरित कर सकता है कि उन्हें एआई के साथ काम करने के लिए मस्तिष्क जीव विज्ञान को समझने की जरूरत है। लेकिन वास्तव में उन्हें नहीं करनी चाहिए। एक न्यूरॉन वास्तव में क्या करता है और यह कोड में लिखे गए फंक्शन से कैसे अलग है - इस बारे में भ्रम असली है। और वह अंतर महत्वपूर्ण है [1][2]।

07 Jun 2026 एआई तंत्रिका-नेटवर्क मशीन-लर्निंग