OpenAI आणि Anthropic त्यांचे मॉडेल्स प्रत्यक्षात कसे ट्रेन करतात

OpenAI आणि Anthropic त्यांचे मॉडेल्स प्रत्यक्षात कसे ट्रेन करतात

प्रत्येक जण ChatGPT आणि Claude बद्दल असं बोलतो जणू ती एखाद्या दिवशी अचानक प्रकट झाली. तुम्ही काहीतरी टाइप करता, तुम्हाला उत्तर मिळतं, जादू. पण तुम्ही कधी थांबून विचारलंय का की यांच्यापैकी एक गोष्ट बनवायला प्रत्यक्षात काय लागतं? चॅट इंटरफेस नाही — मॉडेल स्वतः. ती गोष्ट जिला महिने लागले, कोट्यवधी डॉलर लागले, आणि एका छोट्या गावाला वीज पुरवण्याइतकी वीज खर्च झाली.

मला बऱ्याच काळापासून याबद्दल कुतूहल आहे, काही प्रमाणात कारण हे आकडे जोपर्यंत तुम्ही त्यांच्यासोबत बसत नाही तोपर्यंत खरंच विश्वास ठेवण्यासारखे वाटत नाहीत. म्हणून मी प्रत्यक्षात जे ज्ञात आहे त्यात खोदकाम केलं — लीक झालेले आर्किटेक्चर तपशील, हार्डवेअर घोषणा, डेटा सेंटर उभारणी. यातील काही सार्वजनिक आहे, काही उत्तम स्रोत असलेले अंदाज आहेत, आणि काही गोष्टी लॅब्स मुद्दाम अस्पष्ट ठेवतात. चला मी तुम्हाला सांगतो की आपल्याला प्रत्यक्षात काय माहीत आहे.

थोडक्यात आवृत्ती: हा एक नाही, तीन मोठे टप्पे आहेत

जेव्हा लोक म्हणतात की एक मॉडेल “ट्रेन” केलं गेलं, तेव्हा ते सहसा एका भल्यामोठ्या गणनेची कल्पना करतात. ते चुकीचं आहे. आधुनिक फ्रंटियर मॉडेल्स एका बहु-टप्पी पाइपलाइनमधून जातात जिला OpenAI ने 2022 मध्ये InstructGPT सोबत बऱ्यापैकी औपचारिक स्वरूप दिलं [1]. ते तीन टप्पे असे आहेत:

  1. प्रीट्रेनिंग — मॉडेलला खर्वो शब्द खाऊ घाला आणि त्याला पुढचा टोकन अंदाज करायला शिकवा. हा महागडा भाग आहे, जो महिनोंमहिने GPU क्लस्टर्स फस्त करतो.
  2. सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) — त्याला चांगल्या प्रश्न-आणि-उत्तर वर्तनाची निवडक उदाहरणं दाखवा जेणेकरून तो केवळ ऑटोकंप्लीट करण्याऐवजी प्रत्यक्षात उपयुक्त व्हायला शिकेल.
  3. रिइन्फोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबॅक (RLHF) — माणसं मॉडेलच्या प्रतिसादांना क्रमवारी देतात, एक वेगळं “रिवॉर्ड मॉडेल” त्या पसंती शिकतं, आणि मुख्य मॉडेलला लोकांना आवडणाऱ्या उत्तरांकडे ढकललं जातं [1].

तो शेवटचा टप्पा हीच ती गुपित रेसिपी आहे जी एका कच्च्या टेक्स्ट प्रेडिक्टरला अशा एखाद्या गोष्टीत बदलते जी तुमच्याशी बोलत आहे असं वाटतं. Anthropic इथे Constitutional AI नावाच्या पद्धतीसह स्वतःचा खास ट्विस्ट जोडते, जिथे मॉडेल केवळ मानवी लेबल्सवर अवलंबून राहण्याऐवजी लिखित तत्त्वांच्या संचाशी स्वतःची चिकित्सा करतं.

training pipeline

प्रामाणिकपणे सांगायचं तर, इथेच बहुतेक स्पष्टीकरणं थांबतात आणि इथेच ते रंजक होतं. तर प्रत्येक भागाकडे आणखी खोलात जाऊया.

काहीही ट्रेन होण्याआधी: डेटाची समस्या

तुम्ही डेटाशिवाय फ्रंटियर मॉडेल ट्रेन करू शकत नाही, आणि इथला आवाका ही पहिली गोष्ट आहे जी तुमचा मेंदू बधिर करते. GPT-3 हे साधारण 300 अब्ज टोकन्सवर ट्रेन केलं गेलं. Meta च्या Llama 3 पर्यंत पोहोचेपर्यंत तो आकडा 15 खर्वांहून अधिक टोकन्स होतो [2]. GPT-4 हे साधारण 13 खर्व टोकन्सच्या आसपास होतं अशी माहिती आहे [3]. एक टोकन म्हणजे साधारणपणे एक उप-शब्द तुकडा — “running” हा एक टोकन असू शकतो, किंवा टोकनायझरनुसार तो “run” आणि “ning” मध्ये विभागला जाऊ शकतो.

हे सगळं टेक्स्ट कुठून येतं? कणा म्हणजे Common Crawl, वेब पेजेसचं एक खुलं संग्रह जे दर महिन्याला नवीन स्नॅपशॉट्स प्रसिद्ध करतं, पेटाबाइट्समध्ये मोजलेलं [2]. पण इथे ती गोष्ट आहे जी कोणी सांगत नाही: कच्चा वेब डेटा हा कचरा आहे, आणि बहुतांश काम म्हणजे तो साफ करणं. टीम्स विस्तृत फिल्टरिंग पाइपलाइन्स बनवतात ज्या हे करतात:

  • भाषा ओळख — तुम्हाला खरंच हव्या असलेल्या भाषा ठेवा
  • बॉयलरप्लेट काढून टाकणं — नॅव्ह मेनू, कुकी बॅनर, जाहिराती काढून टाका
  • गुणवत्ता स्कोअरिंग — कमी दर्जाची किंवा स्पॅमी पेजेस फेकून द्या
  • डीडुप्लिकेशन — पुनरावृत्त मजकूर काढून टाका जेणेकरून मॉडेल अति-पाठांतर करणार नाही
  • सुरक्षा फिल्टरिंग — खरोखर घाणेरडा मजकूर वगळा [2]

तो डीडुप्लिकेशनचा टप्पा हा गुपचूपपणे सर्वात मोठ्या अडथळ्यांपैकी एक आहे. खर्व-टोकन आवाक्यावर तुम्ही प्रत्येक दस्तऐवजाची प्रत्येक दुसऱ्या दस्तऐवजाशी तुलना करू शकत नाही — ते संगणकीयदृष्ट्या वेडेपणाचं आहे. म्हणून टीम्स MinHash LSH आणि Jaccard समानता यांसारख्या युक्त्या वापरून निकट-डुप्लिकेट्स अचूकपणे नव्हे तर अंदाजे शोधतात [4]. मग सगळं काही UTF-8 बाइट्समध्ये रूपांतरित केलं जातं आणि Byte Pair Encoding मधून चालवून मॉडेल प्रत्यक्षात पाहतं ते टोकन ID बनतात [2].

हा टप्पा देखणा नाही आणि त्याला गंभीर अभियांत्रिकी लागते, पण तो वगळा आणि तुमचं अब्जावधी डॉलरचं ट्रेनिंग रन क्लिकबेट आणि कमेंट-सेक्शनच्या गाळातून शिकेल. कचरा आत, कचरा बाहेर — फरक इतकाच की त्या कचऱ्यावर प्रक्रिया करायला $100 दशलक्ष लागतात.

प्रीट्रेनिंग: जिथे GPU कामाला लागतात

आता महागडा भाग. प्रीट्रेनिंगमध्ये मॉडेलला टेक्स्टचा एक तुकडा दाखवला जातो आणि वारंवार, अब्जावधी वेळा विचारलं जातं: पुढचा टोकन काय आहे? तो अंदाज लावतो, तो चुकतो, चूक नेटवर्कमधून मागे ढकलली जाते, वजनं किंचित सरकतात. हे खर्वो टोकन्सवर पुन्हा करा आणि ती गोष्ट हळूहळू व्याकरण, तथ्यं, तर्काचे नमुने, कोडिंग — हे सगळं एका मूर्खपणे सोप्या उद्दिष्टातून उदयास येत शिकते.

पंच असा की “खर्वो टोकन्सवर अब्जावधी वेळा” यासाठी स्पष्टपणे बोलायचं तर हास्यास्पद इतक्या मोठ्या प्रमाणावर कंप्यूट लागतो. चला हार्डवेअरबद्दल बोलूया, कारण हाच तो भाग आहे जो वापरकर्त्याने प्रत्यक्षात विचारला होता.

GPT-4 कशावर चाललं

मोठ्या प्रमाणात उद्धृत केलेल्या लीक झालेल्या तपशिलांनुसार (OpenAI ने हे कधीही अधिकृतपणे पुष्टी केली नाही), GPT-4 हे साधारण 25,000 NVIDIA A100 GPU वर सुमारे 90–100 दिवसांत ट्रेन केलं गेलं [3][5]. मॉडेल स्वतः साधारण 1.8 खर्व पॅरामीटर्सचं आहे आणि Mixture-of-Experts डिझाइन वापरतं अशी माहिती आहे — प्रत्येकी सुमारे 111B पॅरामीटर्सचे 16 एक्सपर्ट्स, जिथे संपूर्ण नेटवर्कऐवजी प्रति टोकन फक्त दोनच सक्रिय होतात [5]. कच्चा कंप्यूट साधारण 2 × 10²⁵ FLOPs इतका झाला, आणि एकट्या ट्रेनिंग रनचा अंदाजे खर्च $63 दशलक्ष होता [3].

GPT-5 अहवालानुसार कशावर चालतं

पुढे जा आणि हार्डवेअरची पिढी NVIDIA च्या Hopper चिप्सकडे वळते. अहवाल GPT-5 ची ट्रेनिंग सुमारे 50,000 H100 GPU वर असल्याचं सांगतात, जे एकूण साधारण 144 दशलक्ष GPU-तास होतात, ज्याचा अंदाजे खर्च $600 दशलक्षच्या वर आहे [6]. NVIDIA ने स्वतः सांगितलं आहे की GPT-5 हे H100 आणि H200 GPU वर ट्रेन केलं गेलं [7]. H200 ही ती अपग्रेड आहे जिने OpenAI ला अधिक मोकळेपणा दिला: 4.8 TB/s बँडविड्थवर 141 GB मेमरी, H100 च्या 80 GB च्या तुलनेत [8].

Anthropic कशावर चालतं

इथे ते खरोखर वेगळं होतं. Anthropic NVIDIA वर नव्हे तर Amazon वर खूप अवलंबून आहे, Project Rainier मार्गे, जो पृथ्वीवरील सर्वात मोठ्या AI कंप्यूट क्लस्टर्सपैकी एक आहे, AWS च्या कस्टम Trainium2 सिलिकॉनवर बांधलेला. Rainier 2025 मध्ये जवळपास पाच लाख Trainium2 चिप्ससह कार्यान्वित झाला, आणि AWS म्हणते की त्या वर्षाच्या अखेरीस Claude 10 लाखांहून अधिक Trainium2 चिप्सवर चालण्याची अपेक्षा होती [9]. Anthropic ने त्यांच्या आधीच्या मॉडेल्ससाठी वापरलेल्या कंप्यूटपेक्षा हे पाचपटीहून अधिक आहे [9].

आर्किटेक्चर या चिप्सना UltraServers सोबत एकत्र जोडतं — प्रत्येकी 16 Trainium2 चिप्सचे चार सर्व्हर — जे अंतर्गतरीत्या हाय-स्पीड NeuronLinks वर आणि क्लस्टर्सच्या आरपार Elastic Fabric Adapter नेटवर्किंगद्वारे जोडलेले आहेत [9]. आणि ते थांबत नाहीयेत: Anthropic ने AWS वर $100 अब्जाहून अधिक खर्च करण्याची आणि Trainium2, Trainium3, आणि त्यापुढे 5 गिगावॅटपर्यंत क्षमता सुरक्षित करण्याची वचनबद्धता दिली [10]. त्यांनी आणखी कस्टम चिप्ससाठी Google आणि Broadcom सोबत वेगळा करारही केला आहे [11]. जेव्हा तुम्ही ऐकता “कंप्यूट हेच नवीन तेल आहे,” तेव्हा प्रत्यक्षात ते असं दिसतं.

GPU पिढ्या, शेजारी-शेजारी

चिपआर्किटेक्चरमेमरीबँडविड्थउल्लेखनीय
A100Ampere40/80 GB~2 TB/sGPT-4 ट्रेन केलं (अहवालानुसार) [5]
H100Hopper80 GB3.35 TB/s2023–24 चा कामाचा घोडा [8]
H200Hopper141 GB4.89 TB/sमेमरी अपग्रेड, तोच डाय [8]
B200Blackwell180 GB8 TB/s~4x H100 ट्रेनिंग थ्रूपुट, FP4 [12]
Trainium2AWS कस्टमNeuronLink फॅब्रिकAnthropic चा Project Rainier [9]

H100 ते Blackwell च्या B200 पर्यंतची झेप खूप महत्त्वाची आहे. B200 प्रति GPU 1.8 TB/s वर NVLink 5.0 आणतं (H100 च्या दुप्पट) आणि नवीन FP4 प्रिसिजन टेन्सर कोअर्स आणतं जे ट्रान्सफॉर्मर मॉडेल्सवर साधारण 4x ट्रेनिंग थ्रूपुट देतात [12]. जेव्हा तुम्ही हजारो चिप्सवर GPU-तासाने पैसे मोजत असता, तेव्हा 4x वेगवाढ ही असली-तर-बरी अशी गोष्ट नसते — ती तीन-महिन्यांच्या रन आणि तीन-आठवड्यांच्या रनमधला फरक असते.

1,00,000 GPU एकत्र जोडणं हे स्वतःच एक दुःस्वप्न आहे

इथे एक गोष्ट आहे जिने मला आश्चर्य वाटलं: GPU विकत घेणं हा जवळपास सोपा भाग आहे. त्यांच्यापैकी 1,00,000 ना एका संगणकासारखं वागायला लावणं इथेच खरी अभियांत्रिकी वेदना राहते.

एका 1,00,000 H100 क्लस्टर ला साधारण 150 मेगावॅट डेटा सेंटर क्षमता लागते आणि वर्षाला साधारण 1.59 टेरावॅट-तास वीज जाळते — मानक दरांवर एकट्या वीज खर्चातच सुमारे $124 दशलक्ष [13]. सर्व्हर्स स्वतः साधारण $4 अब्जाच्या आसपास येतात [13]. हे तुम्ही काहीही ट्रेन करण्याआधीचं आहे.

मग नेटवर्किंग आहे. प्रत्येक GPU ला आपला मॉडेलचा हिस्सा सतत प्रत्येक दुसऱ्या GPU सोबत वाटावा लागतो, त्यामुळे इंटरकनेक्ट — InfiniBand किंवा हाय-स्पीड इथरनेट — हा अडथळा बनतो. xAI चा Colossus सुपरकॉम्प्युटर हे इथलं अफलातून उदाहरण आहे. त्यांनी तो 122 दिवसांत 1,00,000 H100 सह बांधला, मग आणखी 92 दिवसांत तो दुप्पट करून 2,00,000 GPU केला [14]. त्यांचा बिल्डिंग ब्लॉक म्हणजे 64 H100 चं Supermicro लिक्विड-कूल्ड रॅक, 8 रॅकच्या (512 GPU) गटांमध्ये मिनी-क्लस्टर्स म्हणून मांडलेलं [15]. असामान्यपणे, त्यांनी InfiniBand पूर्णपणे वगळलं आणि NVIDIA चं Spectrum-X इथरनेट फॅब्रिक वापरलं [14]. 2025 च्या अखेरीस Colossus मध्ये अहवालानुसार 1,50,000 H100, 50,000 H200, आणि 30,000 GB200 होते [14].

आणि या आवाक्यावर, अपयश ही एखादी अपवादात्मक घटना नाही — ती सततची आहे. हजारो GPU महिनोंमहिने पूर्ण क्षमतेने चालत असताना, वैयक्तिक चिप्स, केबल्स, आणि नोड्स नियमितपणे मरतात. म्हणूनच लॅब्स चेकपॉइंटिंगवर इतक्या जोरात अवलंबून राहतात: संपूर्ण मॉडेल स्थिती वेळोवेळी जतन करणं जेणेकरून जेव्हा (जर नव्हे) काहीतरी फसेल तेव्हा तुम्ही शून्यापासून नव्हे तर शेवटच्या चेकपॉइंटपासून पुन्हा सुरू करता [13]. चेकपॉइंट न केल्यामुळे $600M रनचा एक आठवडा गमावा आणि, बरं, तुमचं तिमाही वाईट जाणार आहे.

cluster cost

तर सुरुवातीपासून शेवटपर्यंत प्रत्यक्षात किती वेळ लागतो?

हा तो प्रश्न आहे जो मला वाटतं बहुतेक लोक चुकीचा समजतात, कारण ते गृहीत धरतात की “ट्रेनिंग वेळ” म्हणजे “संपूर्ण कालरेखा.” तसं नाही. मी तो प्रत्यक्षात कॅलेंडर वेळ खाणाऱ्या टप्प्यांत विभागतो.

प्रीट्रेनिंग रन स्वतः

मुख्य कंप्यूट रन — GPU वितळवणारा भाग — एका फ्रंटियर मॉडेलसाठी 2 ते 4 महिन्यांच्या क्रमाने असतो. GPT-4 चं अहवालानुसार 25,000 A100 वर सुमारे 100 दिवस होतं [5]. हाच तो आकडा आहे जो तुम्ही सहसा उद्धृत झालेला पाहता. पण तो खऱ्या कालरेखेचा सर्वात लहान तुकडाही आहे.

त्याभोवतीचं सगळं

GPT-4 च्या लीक्सनुसार, प्रत्यक्ष ट्रेनिंगला सुमारे 3 महिने लागले, ज्यावर रिलीजआधी साधारण 6 अतिरिक्त महिने सुरक्षा चाचणी चढवली गेली [16]. तर कंप्यूट हा चित्राचा फार तर एक तृतीयांश भाग आहे.

सार्वजनिकरीत्या ज्ञात असलेल्यावर आधारित, एका फ्रंटियर मॉडेलसाठी इथे एक ढोबळ टोकाला-टोक विभागणी आहे:

टप्पासाधारण किती वेळकाय घडत आहे
डेटा संकलन आणि क्युरेशनमहिने (बऱ्याचदा एकमेकांत मिसळलेले)खर्वो टोकन्सचं क्रॉलिंग, फिल्टरिंग, डीडुप, टोकनायझिंग [2]
आर्किटेक्चर आणि लहान-स्तरीय प्रयोगआठवडे ते महिनेवचनबद्ध होण्याआधी लहान स्तरावर डिझाइन्स तपासणं
मुख्य प्रीट्रेनिंग रन2–4 महिनेमोठी GPU क्लस्टर नोकरी [5]
SFT + RLHFआठवडे ते दोन-एक महिनेउपयुक्तता आणि पसंती शिकवणं [1]
सुरक्षा चाचणी आणि रेड टीमिंगमहिने (GPT-4 साठी ~6)रिलीजआधी हानीसाठी तणाव-चाचणी [16]
एकूण, कल्पनेपासून लॉन्चपर्यंतबऱ्याचदा ~9–18 महिने

तो सुरक्षा टप्पा म्हणजे केवळ शिक्का मारणं नाही. Anthropic च्या रेड टीमिंगसाठी, उदाहरणार्थ, विषय-तज्ञ आणि LLM तज्ञांना धोकादायक क्षमतांसाठी मॉडेल तपासत प्रति डोमेन 100+ तास घालवावे लागतात [17]. Claude 3 पाठवण्याआधी, त्यांच्या Trust & Safety टीमने टेक्स्ट आणि इमेज या दोन्ही जोखमींसाठी रेड टीमिंग केलं आणि बाहेरील टेस्टर्स आणले [17]. Anthropic आणि OpenAI या दोघांच्याही मॉडेल्सनी अमेरिका आणि ब्रिटनच्या AI Safety Institutes सोबत प्री-डिप्लॉयमेंट चाचणीही केली आहे [17]. तर जेव्हा एखादी लॅब म्हणते की एक मॉडेल “ट्रेनिंग पूर्ण” आहे, तेव्हा बऱ्याचदा अर्धं वर्ष टोचणं, चाचपणं, आणि दुरुस्ती बाकी असते.

आणि प्रामाणिकपणे, लॉन्चनंतरही ते खरंच कधीच पूर्ण होत नाही. सतत फाइन-ट्यूनिंग पास असतात, व्हिजन घटक असतात (GPT-4 च्या इमेज क्षमता टेक्स्ट प्रीट्रेनिंगनंतर अहवालानुसार आणखी 2 खर्व टोकन्सवर ट्रेन केल्या गेल्या) [5], आणि मूल्यांकन व पुनरावृत्तीचं अंतहीन चक्र असतं.

हे सगळं इतकं महाग का पडतं?

मी डॉलर्स एका ठिकाणी मांडतो, कारण आवाका हीच संपूर्ण कथा आहे:

  • GPT-4 ट्रेनिंग रन: ~$63 दशलक्ष [3]
  • GPT-5 ट्रेनिंग रन: अंदाजे $600M+ [6]
  • एकच 100K-GPU क्लस्टर: हार्डवेअरमध्ये ~$4 अब्ज, विजेमध्ये ~$124M/वर्ष [13]
  • Anthropic ची AWS वचनबद्धता: एका दशकात $100+ अब्ज [10]

कारण जवळपास लाजिरवाणं इतकं सोपं आहे. ते म्हणजे कंप्यूट. तुम्ही ग्रहावरील सर्वात जास्त मागणी असलेल्या हजारो चिप्स भाड्याने घेता (किंवा विकत घेता), त्यांना महिनोंमहिने पूर्ण वेगाने चालवता, अशा डेटा सेंटर्समध्ये जे एका शहराइतकी वीज ओढतात. त्या प्रत्येक GPU-तासाला पैसे लागतात, प्रत्येक वॅटला पैसे लागतात, आणि पुन्हा सुरू करावं लागणाऱ्या प्रत्येक फसलेल्या रनला पैसे लागतात. हे संपूर्ण पाइपलाइनवर रचा आणि कोट्यवधी वेडेपणाचे वाटायचे थांबतात आणि अटळ वाटायला लागतात.

आणखी एक शांत खर्चही आहे जो बहुतेक कव्हरेज दुर्लक्षित करतं: माणसं. क्युरेशन पाइपलाइन्स बांधणारे डेटा इंजिनीअर्स, मोठ्या रनचा धोका कमी करण्यासाठी लहान-स्तरीय प्रयोग चालवणारे संशोधक, RLHF साठी हजारो प्रतिसादांना क्रमवारी देणारे मानवी ॲनोटेटर्स, ती गोष्ट मोडण्याचा प्रयत्न करत शंभर-तासांचे पट्टे घालवणारे रेड टीमर्स. चिप्स हेडलाइन्स मिळवतात, पण एक फ्रंटियर मॉडेल हे जितकं हार्डवेअरचं कौशल्य आहे तितकंच ते लॉजिस्टिक्स आणि मानवी समन्वयाचंही कौशल्य आहे.

तुम्ही जर ट्रिलियन-डॉलर लॅब नसाल तर याचा अर्थ काय

तुम्ही बहुधा तुमच्या गॅरेजमध्ये 1.8-खर्व-पॅरामीटर मॉडेल प्रीट्रेन करणार नाही, आणि हाच एका अर्थाने मुद्दा आहे. शून्यापासून फ्रंटियर मॉडेल बांधण्याचा अडथळा आता अब्जावधी डॉलर्स आणि गिगावॅट विजेमध्ये मोजला जातो — आणि म्हणूनच पृथ्वीवरील फक्त मूठभर संस्थाच ते करतात.

पण इथे अधिक उपयुक्त निष्कर्ष आहे. तुम्ही बांधू शकता ती जवळपास प्रत्येक रंजक गोष्ट त्या कामाच्या वर बसते — एका API मार्गे, एखादं लहान ओपन मॉडेल फाइन-ट्यून करून, रिट्रीव्हल आणि प्रॉम्प्टिंग मार्गे. खर्व-टोकन प्रीट्रेनिंग रन हा तुम्ही भाड्याने घेता तो भाग आहे, पुन्हा करता तो नाही. लॅब्सनी $600 दशलक्ष खर्च केले जेणेकरून तुम्ही प्रति दशलक्ष टोकन्स काही डॉलर्स खर्च करू शकता.

मला जे खरंच अफलातून वाटतं ते म्हणजे यातील किती गोष्टी अजूनही अर्ध-गुपित आहेत. OpenAI ने GPT-4 च्या आर्किटेक्चरची कधीही अधिकृतपणे पुष्टी केली नाही — आपल्याला जे “माहीत” आहे त्यातील बहुतांश लीक्स आणि उत्तम स्रोत असलेल्या विश्लेषणातून येतं [5]. Anthropic सुरक्षा पद्धतींबद्दल बरंच प्रसिद्ध करतं पण नेमक्या मॉडेल आकारांबद्दल गप्प राहतं. तर जर तुम्ही ही संपूर्ण गोष्ट एखादी अचूक, पुष्टी केलेली स्पेसिफिकेशन शीट हवी म्हणून वाचली असेल, तर मला प्रामाणिक राहावं लागेल: त्या इमारतींबाहेर कोणाकडेही ती नाही. आपल्याकडे जे आहे ते म्हणजे लीक्स, हार्डवेअर घोषणा, आणि लॅब्स आपल्याला सांगतात की ते या समस्येवर किती पैसा आणि सिलिकॉन फेकत आहेत — आणि तेवढंही तुमचं डोकं गरगरवायला पुरेसं आहे.

स्रोत

  1. Pretraining: Breaking Down the Modern LLM Training Pipeline — MLOps Community
  2. Curating Trillion-Token Datasets — NVIDIA Technical Blog
  3. GPT-4 architecture, datasets, costs and more leaked — The Decoder
  4. Data Deduplication at Trillion Scale — Zilliz Blog
  5. GPT-4 Architecture, Infrastructure, Training Dataset, Costs — SemiAnalysis
  6. How Many GPUs to Train GPT-5 — CometAPI
  7. OpenAI’s GPT-5 was trained on NVIDIA H100 and H200 GPUs — NVIDIA Data Center
  8. NVIDIA H200 GPU: Specs, VRAM, Price — RunPod
  9. AWS activates Project Rainier — About Amazon
  10. Amazon announces additional $5B Anthropic investment — About Amazon
  11. Anthropic expands partnership with Google and Broadcom — Anthropic
  12. NVIDIA B200 vs H100 — Clarifai
  13. 100,000 H100 Clusters: Power, Network, Reliability — SemiAnalysis
  14. xAI Colossus supercomputer with 100K H100 GPUs comes online — Tom’s Hardware
  15. Inside the 100K GPU xAI Colossus Cluster — ServeTheHome
  16. GPT-4 Details Revealed — Patrick McGuinness
  17. Frontier Threats Red Teaming for AI Safety — Anthropic