Machine Learning

LLM ची चाचणी कशी करावी: बेंचमार्क्स, अरेना आणि खऱ्या इव्हॅल्स

दर काही आठवड्यांनी कोणती ना कोणती AI लॅब एक नवीन मॉडेल लाँच करते आणि लगेच दावा करते की हे पृथ्वीवरचं सर्वात स्मार्ट मॉडेल आहे. मग एका आठवड्यानंतर दुसरी लॅब तेच करते. खरंच कोणतं मॉडेल चांगलं आहे हे शोधण्याचरा प्रयत्न तुम्ही कधी केला असेल, तर तुम्ही नक्कीच MMLU, GPQA आणि SWE-bench सारख्या नावांच्या चार्ट्सच्या भिंतीकडे बघत राहिला असाल आणि डोकं गरगरलं असेल. मी अलीकडेच या रॅबिट होलमध्ये उतरलो, आणि याची थोडक्यात गोष्ट अशी आहे: इथे एकच स्कोअरबोर्ड नाही. “चांगलं” मोजण्यासाठी लोक किमान चार पूर्णपणे वेगळ्या पद्धती वापरतात, आणि एकदा तुम्हाला प्रत्येक पद्धत नेमकं काय करते हे समजलं, की संपूर्ण AI लीडरबोर्ड सर्कस खूप जास्त अर्थपूर्ण वाटायला लागते.

15 Jun 2026 AI LLM Benchmarks Machine Learning

OpenAI आणि Anthropic त्यांचे मॉडेल्स प्रत्यक्षात कसे ट्रेन करतात

प्रत्येक जण ChatGPT आणि Claude बद्दल असं बोलतो जणू ती एखाद्या दिवशी अचानक प्रकट झाली. तुम्ही काहीतरी टाइप करता, तुम्हाला उत्तर मिळतं, जादू. पण तुम्ही कधी थांबून विचारलंय का की यांच्यापैकी एक गोष्ट बनवायला प्रत्यक्षात काय लागतं? चॅट इंटरफेस नाही — मॉडेल स्वतः. ती गोष्ट जिला महिने लागले, कोट्यवधी डॉलर लागले, आणि एका छोट्या गावाला वीज पुरवण्याइतकी वीज खर्च झाली. मला बऱ्याच काळापासून याबद्दल कुतूहल आहे, काही प्रमाणात कारण हे आकडे जोपर्यंत तुम्ही त्यांच्यासोबत बसत नाही तोपर्यंत खरंच विश्वास ठेवण्यासारखे वाटत नाहीत. म्हणून मी प्रत्यक्षात जे ज्ञात आहे त्यात खोदकाम केलं — लीक झालेले आर्किटेक्चर तपशील, हार्डवेअर घोषणा, डेटा सेंटर उभारणी. यातील काही सार्वजनिक आहे, काही उत्तम स्रोत असलेले अंदाज आहेत, आणि काही गोष्टी लॅब्स मुद्दाम अस्पष्ट ठेवतात. चला मी तुम्हाला सांगतो की आपल्याला प्रत्यक्षात काय माहीत आहे.

14 Jun 2026 ai llm machine-learning

AI मधील लूप्स: ते काय आहेत आणि सगळेच का बोलत आहेत

सध्या AI मध्ये “लूप” म्हणजे काय असं तीन लोकांना विचारा आणि तुम्हाला तीन वेगवेगळी उत्तरं मिळतील. एक जण एजेंट लूप सांगेल. दुसरा मॉडेल कोलॅप्स आणि फीडबॅक लूप्सबद्दल बोलायला लागेल. तिसरा एखाद्या कम्प्लायन्स मीटिंगमधल्या ह्युमन-इन-द-लूपचा उल्लेख करेल. ते सगळेच बरोबर आहेत, आणि नेमकं याच कारणामुळे हा शब्द इतका गोंधळात टाकणारा झाला आहे. मी ८ वर्षांहून अधिक काळ सॉफ्टवेअर लिहितोय, आणि भरपूर शब्दजंजाळ पुन्हा पुन्हा वापरला जाताना मी पाहिलं आहे. पण “लूप” हा खास आहे कारण तो एकच ट्रेंड नाही — त्या किमान चार वेगवेगळ्या कल्पना आहेत ज्यांना नेमका एकच शब्द लागू होतो, आणि त्या सगळ्या साधारण एकाच वेळी लोकप्रिय झाल्या. तर मग या सगळ्याचा गुंता सोडवूया.

08 Jun 2026 ai agents machine-learning

एआई मध्ये न्यूरॉन्स: फक्त फंक्शन्स नाहीत

जर तुम्ही टेक क्षेत्रात “न्यूरल नेटवर्क” हा शब्द ऐकला असेल, तर तुम्ही कदाचित काहीतरी जैविक कल्पना केली असेल. न्यूरॉन हा शब्द नवीन प्रोग्रामरला एआई सोबत काम करण्यासाठी मेंदूचा जीवशास्त्र समजून घेणे आवश्यक आहे असे वाटू शकते. त्यांना नाही. पण न्यूरॉन खरोखर काय करतो आणि तो तुमच्या कोडमध्ये लिहिलेल्या फंक्शनपेक्षा कसे वेगळा आहे याबद्दल गोंधळ वास्तव आहे. आणि हा फरक महत्त्वाचा आहे [1][2]. न्यूरॉन खरोखर काय आहे? एआई मध्ये न्यूरॉन हा एक संगणकीय एकक आहे. सरलतेने सांगायचे तर, तो असा गोष्ट आहे जो इनपुट घेतो, गणित करतो आणि आउटपुट तयार करतो. हे फंक्शन सारखे वाटते, बरोबर? काहीसे तसेच आहे. पण समानता येथे संपते.

07 Jun 2026 ai neural-networks machine-learning