Machine Learning

LLM ची चाचणी कशी करावी: बेंचमार्क्स, अरेना आणि खऱ्या इव्हॅल्स
दर काही आठवड्यांनी कोणती ना कोणती AI लॅब एक नवीन मॉडेल लाँच करते आणि लगेच दावा करते की हे पृथ्वीवरचं सर्वात स्मार्ट मॉडेल आहे. मग एका आठवड्यानंतर दुसरी लॅब तेच करते. खरंच कोणतं मॉडेल चांगलं आहे हे शोधण्याचरा प्रयत्न तुम्ही कधी केला असेल, तर तुम्ही नक्कीच MMLU, GPQA आणि SWE-bench सारख्या नावांच्या चार्ट्सच्या भिंतीकडे बघत राहिला असाल आणि डोकं गरगरलं असेल. मी अलीकडेच या रॅबिट होलमध्ये उतरलो, आणि याची थोडक्यात गोष्ट अशी आहे: इथे एकच स्कोअरबोर्ड नाही. “चांगलं” मोजण्यासाठी लोक किमान चार पूर्णपणे वेगळ्या पद्धती वापरतात, आणि एकदा तुम्हाला प्रत्येक पद्धत नेमकं काय करते हे समजलं, की संपूर्ण AI लीडरबोर्ड सर्कस खूप जास्त अर्थपूर्ण वाटायला लागते.
OpenAI आणि Anthropic त्यांचे मॉडेल्स प्रत्यक्षात कसे ट्रेन करतात
प्रत्येक जण ChatGPT आणि Claude बद्दल असं बोलतो जणू ती एखाद्या दिवशी अचानक प्रकट झाली. तुम्ही काहीतरी टाइप करता, तुम्हाला उत्तर मिळतं, जादू. पण तुम्ही कधी थांबून विचारलंय का की यांच्यापैकी एक गोष्ट बनवायला प्रत्यक्षात काय लागतं? चॅट इंटरफेस नाही — मॉडेल स्वतः. ती गोष्ट जिला महिने लागले, कोट्यवधी डॉलर लागले, आणि एका छोट्या गावाला वीज पुरवण्याइतकी वीज खर्च झाली. मला बऱ्याच काळापासून याबद्दल कुतूहल आहे, काही प्रमाणात कारण हे आकडे जोपर्यंत तुम्ही त्यांच्यासोबत बसत नाही तोपर्यंत खरंच विश्वास ठेवण्यासारखे वाटत नाहीत. म्हणून मी प्रत्यक्षात जे ज्ञात आहे त्यात खोदकाम केलं — लीक झालेले आर्किटेक्चर तपशील, हार्डवेअर घोषणा, डेटा सेंटर उभारणी. यातील काही सार्वजनिक आहे, काही उत्तम स्रोत असलेले अंदाज आहेत, आणि काही गोष्टी लॅब्स मुद्दाम अस्पष्ट ठेवतात. चला मी तुम्हाला सांगतो की आपल्याला प्रत्यक्षात काय माहीत आहे.
AI मधील लूप्स: ते काय आहेत आणि सगळेच का बोलत आहेत
सध्या AI मध्ये “लूप” म्हणजे काय असं तीन लोकांना विचारा आणि तुम्हाला तीन वेगवेगळी उत्तरं मिळतील. एक जण एजेंट लूप सांगेल. दुसरा मॉडेल कोलॅप्स आणि फीडबॅक लूप्सबद्दल बोलायला लागेल. तिसरा एखाद्या कम्प्लायन्स मीटिंगमधल्या ह्युमन-इन-द-लूपचा उल्लेख करेल. ते सगळेच बरोबर आहेत, आणि नेमकं याच कारणामुळे हा शब्द इतका गोंधळात टाकणारा झाला आहे. मी ८ वर्षांहून अधिक काळ सॉफ्टवेअर लिहितोय, आणि भरपूर शब्दजंजाळ पुन्हा पुन्हा वापरला जाताना मी पाहिलं आहे. पण “लूप” हा खास आहे कारण तो एकच ट्रेंड नाही — त्या किमान चार वेगवेगळ्या कल्पना आहेत ज्यांना नेमका एकच शब्द लागू होतो, आणि त्या सगळ्या साधारण एकाच वेळी लोकप्रिय झाल्या. तर मग या सगळ्याचा गुंता सोडवूया.
एआई मध्ये न्यूरॉन्स: फक्त फंक्शन्स नाहीत
जर तुम्ही टेक क्षेत्रात “न्यूरल नेटवर्क” हा शब्द ऐकला असेल, तर तुम्ही कदाचित काहीतरी जैविक कल्पना केली असेल. न्यूरॉन हा शब्द नवीन प्रोग्रामरला एआई सोबत काम करण्यासाठी मेंदूचा जीवशास्त्र समजून घेणे आवश्यक आहे असे वाटू शकते. त्यांना नाही. पण न्यूरॉन खरोखर काय करतो आणि तो तुमच्या कोडमध्ये लिहिलेल्या फंक्शनपेक्षा कसे वेगळा आहे याबद्दल गोंधळ वास्तव आहे. आणि हा फरक महत्त्वाचा आहे [1][2]. न्यूरॉन खरोखर काय आहे? एआई मध्ये न्यूरॉन हा एक संगणकीय एकक आहे. सरलतेने सांगायचे तर, तो असा गोष्ट आहे जो इनपुट घेतो, गणित करतो आणि आउटपुट तयार करतो. हे फंक्शन सारखे वाटते, बरोबर? काहीसे तसेच आहे. पण समानता येथे संपते.