OpenAI आणि Anthropic त्यांचे मॉडेल्स प्रत्यक्षात कसे ट्रेन करतात

प्रत्येक जण ChatGPT आणि Claude बद्दल असं बोलतो जणू ती एखाद्या दिवशी अचानक प्रकट झाली. तुम्ही काहीतरी टाइप करता, तुम्हाला उत्तर मिळतं, जादू. पण तुम्ही कधी थांबून विचारलंय का की यांच्यापैकी एक गोष्ट बनवायला प्रत्यक्षात काय लागतं? चॅट इंटरफेस नाही — मॉडेल स्वतः. ती गोष्ट जिला महिने लागले, कोट्यवधी डॉलर लागले, आणि एका छोट्या गावाला वीज पुरवण्याइतकी वीज खर्च झाली.

मला बऱ्याच काळापासून याबद्दल कुतूहल आहे, काही प्रमाणात कारण हे आकडे जोपर्यंत तुम्ही त्यांच्यासोबत बसत नाही तोपर्यंत खरंच विश्वास ठेवण्यासारखे वाटत नाहीत. म्हणून मी प्रत्यक्षात जे ज्ञात आहे त्यात खोदकाम केलं — लीक झालेले आर्किटेक्चर तपशील, हार्डवेअर घोषणा, डेटा सेंटर उभारणी. यातील काही सार्वजनिक आहे, काही उत्तम स्रोत असलेले अंदाज आहेत, आणि काही गोष्टी लॅब्स मुद्दाम अस्पष्ट ठेवतात. चला मी तुम्हाला सांगतो की आपल्याला प्रत्यक्षात काय माहीत आहे.

थोडक्यात आवृत्ती: हा एक नाही, तीन मोठे टप्पे आहेत

जेव्हा लोक म्हणतात की एक मॉडेल “ट्रेन” केलं गेलं, तेव्हा ते सहसा एका भल्यामोठ्या गणनेची कल्पना करतात. ते चुकीचं आहे. आधुनिक फ्रंटियर मॉडेल्स एका बहु-टप्पी पाइपलाइनमधून जातात जिला OpenAI ने 2022 मध्ये InstructGPT सोबत बऱ्यापैकी औपचारिक स्वरूप दिलं [1]. ते तीन टप्पे असे आहेत:

प्रीट्रेनिंग — मॉडेलला खर्वो शब्द खाऊ घाला आणि त्याला पुढचा टोकन अंदाज करायला शिकवा. हा महागडा भाग आहे, जो महिनोंमहिने GPU क्लस्टर्स फस्त करतो.
सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) — त्याला चांगल्या प्रश्न-आणि-उत्तर वर्तनाची निवडक उदाहरणं दाखवा जेणेकरून तो केवळ ऑटोकंप्लीट करण्याऐवजी प्रत्यक्षात उपयुक्त व्हायला शिकेल.
रिइन्फोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबॅक (RLHF) — माणसं मॉडेलच्या प्रतिसादांना क्रमवारी देतात, एक वेगळं “रिवॉर्ड मॉडेल” त्या पसंती शिकतं, आणि मुख्य मॉडेलला लोकांना आवडणाऱ्या उत्तरांकडे ढकललं जातं [1].

तो शेवटचा टप्पा हीच ती गुपित रेसिपी आहे जी एका कच्च्या टेक्स्ट प्रेडिक्टरला अशा एखाद्या गोष्टीत बदलते जी तुमच्याशी बोलत आहे असं वाटतं. Anthropic इथे Constitutional AI नावाच्या पद्धतीसह स्वतःचा खास ट्विस्ट जोडते, जिथे मॉडेल केवळ मानवी लेबल्सवर अवलंबून राहण्याऐवजी लिखित तत्त्वांच्या संचाशी स्वतःची चिकित्सा करतं.

training pipeline

प्रामाणिकपणे सांगायचं तर, इथेच बहुतेक स्पष्टीकरणं थांबतात आणि इथेच ते रंजक होतं. तर प्रत्येक भागाकडे आणखी खोलात जाऊया.

काहीही ट्रेन होण्याआधी: डेटाची समस्या

तुम्ही डेटाशिवाय फ्रंटियर मॉडेल ट्रेन करू शकत नाही, आणि इथला आवाका ही पहिली गोष्ट आहे जी तुमचा मेंदू बधिर करते. GPT-3 हे साधारण 300 अब्ज टोकन्सवर ट्रेन केलं गेलं. Meta च्या Llama 3 पर्यंत पोहोचेपर्यंत तो आकडा 15 खर्वांहून अधिक टोकन्स होतो [2]. GPT-4 हे साधारण 13 खर्व टोकन्सच्या आसपास होतं अशी माहिती आहे [3]. एक टोकन म्हणजे साधारणपणे एक उप-शब्द तुकडा — “running” हा एक टोकन असू शकतो, किंवा टोकनायझरनुसार तो “run” आणि “ning” मध्ये विभागला जाऊ शकतो.

हे सगळं टेक्स्ट कुठून येतं? कणा म्हणजे Common Crawl, वेब पेजेसचं एक खुलं संग्रह जे दर महिन्याला नवीन स्नॅपशॉट्स प्रसिद्ध करतं, पेटाबाइट्समध्ये मोजलेलं [2]. पण इथे ती गोष्ट आहे जी कोणी सांगत नाही: कच्चा वेब डेटा हा कचरा आहे, आणि बहुतांश काम म्हणजे तो साफ करणं. टीम्स विस्तृत फिल्टरिंग पाइपलाइन्स बनवतात ज्या हे करतात:

भाषा ओळख — तुम्हाला खरंच हव्या असलेल्या भाषा ठेवा
बॉयलरप्लेट काढून टाकणं — नॅव्ह मेनू, कुकी बॅनर, जाहिराती काढून टाका
गुणवत्ता स्कोअरिंग — कमी दर्जाची किंवा स्पॅमी पेजेस फेकून द्या
डीडुप्लिकेशन — पुनरावृत्त मजकूर काढून टाका जेणेकरून मॉडेल अति-पाठांतर करणार नाही
सुरक्षा फिल्टरिंग — खरोखर घाणेरडा मजकूर वगळा [2]

तो डीडुप्लिकेशनचा टप्पा हा गुपचूपपणे सर्वात मोठ्या अडथळ्यांपैकी एक आहे. खर्व-टोकन आवाक्यावर तुम्ही प्रत्येक दस्तऐवजाची प्रत्येक दुसऱ्या दस्तऐवजाशी तुलना करू शकत नाही — ते संगणकीयदृष्ट्या वेडेपणाचं आहे. म्हणून टीम्स MinHash LSH आणि Jaccard समानता यांसारख्या युक्त्या वापरून निकट-डुप्लिकेट्स अचूकपणे नव्हे तर अंदाजे शोधतात [4]. मग सगळं काही UTF-8 बाइट्समध्ये रूपांतरित केलं जातं आणि Byte Pair Encoding मधून चालवून मॉडेल प्रत्यक्षात पाहतं ते टोकन ID बनतात [2].

हा टप्पा देखणा नाही आणि त्याला गंभीर अभियांत्रिकी लागते, पण तो वगळा आणि तुमचं अब्जावधी डॉलरचं ट्रेनिंग रन क्लिकबेट आणि कमेंट-सेक्शनच्या गाळातून शिकेल. कचरा आत, कचरा बाहेर — फरक इतकाच की त्या कचऱ्यावर प्रक्रिया करायला $100 दशलक्ष लागतात.

प्रीट्रेनिंग: जिथे GPU कामाला लागतात

आता महागडा भाग. प्रीट्रेनिंगमध्ये मॉडेलला टेक्स्टचा एक तुकडा दाखवला जातो आणि वारंवार, अब्जावधी वेळा विचारलं जातं: पुढचा टोकन काय आहे? तो अंदाज लावतो, तो चुकतो, चूक नेटवर्कमधून मागे ढकलली जाते, वजनं किंचित सरकतात. हे खर्वो टोकन्सवर पुन्हा करा आणि ती गोष्ट हळूहळू व्याकरण, तथ्यं, तर्काचे नमुने, कोडिंग — हे सगळं एका मूर्खपणे सोप्या उद्दिष्टातून उदयास येत शिकते.

पंच असा की “खर्वो टोकन्सवर अब्जावधी वेळा” यासाठी स्पष्टपणे बोलायचं तर हास्यास्पद इतक्या मोठ्या प्रमाणावर कंप्यूट लागतो. चला हार्डवेअरबद्दल बोलूया, कारण हाच तो भाग आहे जो वापरकर्त्याने प्रत्यक्षात विचारला होता.

GPT-4 कशावर चाललं

मोठ्या प्रमाणात उद्धृत केलेल्या लीक झालेल्या तपशिलांनुसार (OpenAI ने हे कधीही अधिकृतपणे पुष्टी केली नाही), GPT-4 हे साधारण 25,000 NVIDIA A100 GPU वर सुमारे 90–100 दिवसांत ट्रेन केलं गेलं [3][5]. मॉडेल स्वतः साधारण 1.8 खर्व पॅरामीटर्सचं आहे आणि Mixture-of-Experts डिझाइन वापरतं अशी माहिती आहे — प्रत्येकी सुमारे 111B पॅरामीटर्सचे 16 एक्सपर्ट्स, जिथे संपूर्ण नेटवर्कऐवजी प्रति टोकन फक्त दोनच सक्रिय होतात [5]. कच्चा कंप्यूट साधारण 2 × 10²⁵ FLOPs इतका झाला, आणि एकट्या ट्रेनिंग रनचा अंदाजे खर्च $63 दशलक्ष होता [3].

GPT-5 अहवालानुसार कशावर चालतं

पुढे जा आणि हार्डवेअरची पिढी NVIDIA च्या Hopper चिप्सकडे वळते. अहवाल GPT-5 ची ट्रेनिंग सुमारे 50,000 H100 GPU वर असल्याचं सांगतात, जे एकूण साधारण 144 दशलक्ष GPU-तास होतात, ज्याचा अंदाजे खर्च $600 दशलक्षच्या वर आहे [6]. NVIDIA ने स्वतः सांगितलं आहे की GPT-5 हे H100 आणि H200 GPU वर ट्रेन केलं गेलं [7]. H200 ही ती अपग्रेड आहे जिने OpenAI ला अधिक मोकळेपणा दिला: 4.8 TB/s बँडविड्थवर 141 GB मेमरी, H100 च्या 80 GB च्या तुलनेत [8].

Anthropic कशावर चालतं

इथे ते खरोखर वेगळं होतं. Anthropic NVIDIA वर नव्हे तर Amazon वर खूप अवलंबून आहे, Project Rainier मार्गे, जो पृथ्वीवरील सर्वात मोठ्या AI कंप्यूट क्लस्टर्सपैकी एक आहे, AWS च्या कस्टम Trainium2 सिलिकॉनवर बांधलेला. Rainier 2025 मध्ये जवळपास पाच लाख Trainium2 चिप्ससह कार्यान्वित झाला, आणि AWS म्हणते की त्या वर्षाच्या अखेरीस Claude 10 लाखांहून अधिक Trainium2 चिप्सवर चालण्याची अपेक्षा होती [9]. Anthropic ने त्यांच्या आधीच्या मॉडेल्ससाठी वापरलेल्या कंप्यूटपेक्षा हे पाचपटीहून अधिक आहे [9].

आर्किटेक्चर या चिप्सना UltraServers सोबत एकत्र जोडतं — प्रत्येकी 16 Trainium2 चिप्सचे चार सर्व्हर — जे अंतर्गतरीत्या हाय-स्पीड NeuronLinks वर आणि क्लस्टर्सच्या आरपार Elastic Fabric Adapter नेटवर्किंगद्वारे जोडलेले आहेत [9]. आणि ते थांबत नाहीयेत: Anthropic ने AWS वर $100 अब्जाहून अधिक खर्च करण्याची आणि Trainium2, Trainium3, आणि त्यापुढे 5 गिगावॅटपर्यंत क्षमता सुरक्षित करण्याची वचनबद्धता दिली [10]. त्यांनी आणखी कस्टम चिप्ससाठी Google आणि Broadcom सोबत वेगळा करारही केला आहे [11]. जेव्हा तुम्ही ऐकता “कंप्यूट हेच नवीन तेल आहे,” तेव्हा प्रत्यक्षात ते असं दिसतं.

GPU पिढ्या, शेजारी-शेजारी

चिप	आर्किटेक्चर	मेमरी	बँडविड्थ	उल्लेखनीय
A100	Ampere	40/80 GB	~2 TB/s	GPT-4 ट्रेन केलं (अहवालानुसार) [5]
H100	Hopper	80 GB	3.35 TB/s	2023–24 चा कामाचा घोडा [8]
H200	Hopper	141 GB	4.89 TB/s	मेमरी अपग्रेड, तोच डाय [8]
B200	Blackwell	180 GB	8 TB/s	~4x H100 ट्रेनिंग थ्रूपुट, FP4 [12]
Trainium2	AWS कस्टम	—	NeuronLink फॅब्रिक	Anthropic चा Project Rainier [9]

H100 ते Blackwell च्या B200 पर्यंतची झेप खूप महत्त्वाची आहे. B200 प्रति GPU 1.8 TB/s वर NVLink 5.0 आणतं (H100 च्या दुप्पट) आणि नवीन FP4 प्रिसिजन टेन्सर कोअर्स आणतं जे ट्रान्सफॉर्मर मॉडेल्सवर साधारण 4x ट्रेनिंग थ्रूपुट देतात [12]. जेव्हा तुम्ही हजारो चिप्सवर GPU-तासाने पैसे मोजत असता, तेव्हा 4x वेगवाढ ही असली-तर-बरी अशी गोष्ट नसते — ती तीन-महिन्यांच्या रन आणि तीन-आठवड्यांच्या रनमधला फरक असते.

1,00,000 GPU एकत्र जोडणं हे स्वतःच एक दुःस्वप्न आहे

इथे एक गोष्ट आहे जिने मला आश्चर्य वाटलं: GPU विकत घेणं हा जवळपास सोपा भाग आहे. त्यांच्यापैकी 1,00,000 ना एका संगणकासारखं वागायला लावणं इथेच खरी अभियांत्रिकी वेदना राहते.

एका 1,00,000 H100 क्लस्टर ला साधारण 150 मेगावॅट डेटा सेंटर क्षमता लागते आणि वर्षाला साधारण 1.59 टेरावॅट-तास वीज जाळते — मानक दरांवर एकट्या वीज खर्चातच सुमारे $124 दशलक्ष [13]. सर्व्हर्स स्वतः साधारण $4 अब्जाच्या आसपास येतात [13]. हे तुम्ही काहीही ट्रेन करण्याआधीचं आहे.

मग नेटवर्किंग आहे. प्रत्येक GPU ला आपला मॉडेलचा हिस्सा सतत प्रत्येक दुसऱ्या GPU सोबत वाटावा लागतो, त्यामुळे इंटरकनेक्ट — InfiniBand किंवा हाय-स्पीड इथरनेट — हा अडथळा बनतो. xAI चा Colossus सुपरकॉम्प्युटर हे इथलं अफलातून उदाहरण आहे. त्यांनी तो 122 दिवसांत 1,00,000 H100 सह बांधला, मग आणखी 92 दिवसांत तो दुप्पट करून 2,00,000 GPU केला [14]. त्यांचा बिल्डिंग ब्लॉक म्हणजे 64 H100 चं Supermicro लिक्विड-कूल्ड रॅक, 8 रॅकच्या (512 GPU) गटांमध्ये मिनी-क्लस्टर्स म्हणून मांडलेलं [15]. असामान्यपणे, त्यांनी InfiniBand पूर्णपणे वगळलं आणि NVIDIA चं Spectrum-X इथरनेट फॅब्रिक वापरलं [14]. 2025 च्या अखेरीस Colossus मध्ये अहवालानुसार 1,50,000 H100, 50,000 H200, आणि 30,000 GB200 होते [14].

आणि या आवाक्यावर, अपयश ही एखादी अपवादात्मक घटना नाही — ती सततची आहे. हजारो GPU महिनोंमहिने पूर्ण क्षमतेने चालत असताना, वैयक्तिक चिप्स, केबल्स, आणि नोड्स नियमितपणे मरतात. म्हणूनच लॅब्स चेकपॉइंटिंगवर इतक्या जोरात अवलंबून राहतात: संपूर्ण मॉडेल स्थिती वेळोवेळी जतन करणं जेणेकरून जेव्हा (जर नव्हे) काहीतरी फसेल तेव्हा तुम्ही शून्यापासून नव्हे तर शेवटच्या चेकपॉइंटपासून पुन्हा सुरू करता [13]. चेकपॉइंट न केल्यामुळे $600M रनचा एक आठवडा गमावा आणि, बरं, तुमचं तिमाही वाईट जाणार आहे.

cluster cost

तर सुरुवातीपासून शेवटपर्यंत प्रत्यक्षात किती वेळ लागतो?

हा तो प्रश्न आहे जो मला वाटतं बहुतेक लोक चुकीचा समजतात, कारण ते गृहीत धरतात की “ट्रेनिंग वेळ” म्हणजे “संपूर्ण कालरेखा.” तसं नाही. मी तो प्रत्यक्षात कॅलेंडर वेळ खाणाऱ्या टप्प्यांत विभागतो.

प्रीट्रेनिंग रन स्वतः

मुख्य कंप्यूट रन — GPU वितळवणारा भाग — एका फ्रंटियर मॉडेलसाठी 2 ते 4 महिन्यांच्या क्रमाने असतो. GPT-4 चं अहवालानुसार 25,000 A100 वर सुमारे 100 दिवस होतं [5]. हाच तो आकडा आहे जो तुम्ही सहसा उद्धृत झालेला पाहता. पण तो खऱ्या कालरेखेचा सर्वात लहान तुकडाही आहे.

त्याभोवतीचं सगळं

GPT-4 च्या लीक्सनुसार, प्रत्यक्ष ट्रेनिंगला सुमारे 3 महिने लागले, ज्यावर रिलीजआधी साधारण 6 अतिरिक्त महिने सुरक्षा चाचणी चढवली गेली [16]. तर कंप्यूट हा चित्राचा फार तर एक तृतीयांश भाग आहे.

सार्वजनिकरीत्या ज्ञात असलेल्यावर आधारित, एका फ्रंटियर मॉडेलसाठी इथे एक ढोबळ टोकाला-टोक विभागणी आहे:

टप्पा	साधारण किती वेळ	काय घडत आहे
डेटा संकलन आणि क्युरेशन	महिने (बऱ्याचदा एकमेकांत मिसळलेले)	खर्वो टोकन्सचं क्रॉलिंग, फिल्टरिंग, डीडुप, टोकनायझिंग [2]
आर्किटेक्चर आणि लहान-स्तरीय प्रयोग	आठवडे ते महिने	वचनबद्ध होण्याआधी लहान स्तरावर डिझाइन्स तपासणं
मुख्य प्रीट्रेनिंग रन	2–4 महिने	मोठी GPU क्लस्टर नोकरी [5]
SFT + RLHF	आठवडे ते दोन-एक महिने	उपयुक्तता आणि पसंती शिकवणं [1]
सुरक्षा चाचणी आणि रेड टीमिंग	महिने (GPT-4 साठी ~6)	रिलीजआधी हानीसाठी तणाव-चाचणी [16]
एकूण, कल्पनेपासून लॉन्चपर्यंत	बऱ्याचदा ~9–18 महिने	—

तो सुरक्षा टप्पा म्हणजे केवळ शिक्का मारणं नाही. Anthropic च्या रेड टीमिंगसाठी, उदाहरणार्थ, विषय-तज्ञ आणि LLM तज्ञांना धोकादायक क्षमतांसाठी मॉडेल तपासत प्रति डोमेन 100+ तास घालवावे लागतात [17]. Claude 3 पाठवण्याआधी, त्यांच्या Trust & Safety टीमने टेक्स्ट आणि इमेज या दोन्ही जोखमींसाठी रेड टीमिंग केलं आणि बाहेरील टेस्टर्स आणले [17]. Anthropic आणि OpenAI या दोघांच्याही मॉडेल्सनी अमेरिका आणि ब्रिटनच्या AI Safety Institutes सोबत प्री-डिप्लॉयमेंट चाचणीही केली आहे [17]. तर जेव्हा एखादी लॅब म्हणते की एक मॉडेल “ट्रेनिंग पूर्ण” आहे, तेव्हा बऱ्याचदा अर्धं वर्ष टोचणं, चाचपणं, आणि दुरुस्ती बाकी असते.

आणि प्रामाणिकपणे, लॉन्चनंतरही ते खरंच कधीच पूर्ण होत नाही. सतत फाइन-ट्यूनिंग पास असतात, व्हिजन घटक असतात (GPT-4 च्या इमेज क्षमता टेक्स्ट प्रीट्रेनिंगनंतर अहवालानुसार आणखी 2 खर्व टोकन्सवर ट्रेन केल्या गेल्या) [5], आणि मूल्यांकन व पुनरावृत्तीचं अंतहीन चक्र असतं.

हे सगळं इतकं महाग का पडतं?

मी डॉलर्स एका ठिकाणी मांडतो, कारण आवाका हीच संपूर्ण कथा आहे:

GPT-4 ट्रेनिंग रन: ~$63 दशलक्ष [3]
GPT-5 ट्रेनिंग रन: अंदाजे $600M+ [6]
एकच 100K-GPU क्लस्टर: हार्डवेअरमध्ये ~$4 अब्ज, विजेमध्ये ~$124M/वर्ष [13]
Anthropic ची AWS वचनबद्धता: एका दशकात $100+ अब्ज [10]

कारण जवळपास लाजिरवाणं इतकं सोपं आहे. ते म्हणजे कंप्यूट. तुम्ही ग्रहावरील सर्वात जास्त मागणी असलेल्या हजारो चिप्स भाड्याने घेता (किंवा विकत घेता), त्यांना महिनोंमहिने पूर्ण वेगाने चालवता, अशा डेटा सेंटर्समध्ये जे एका शहराइतकी वीज ओढतात. त्या प्रत्येक GPU-तासाला पैसे लागतात, प्रत्येक वॅटला पैसे लागतात, आणि पुन्हा सुरू करावं लागणाऱ्या प्रत्येक फसलेल्या रनला पैसे लागतात. हे संपूर्ण पाइपलाइनवर रचा आणि कोट्यवधी वेडेपणाचे वाटायचे थांबतात आणि अटळ वाटायला लागतात.

आणखी एक शांत खर्चही आहे जो बहुतेक कव्हरेज दुर्लक्षित करतं: माणसं. क्युरेशन पाइपलाइन्स बांधणारे डेटा इंजिनीअर्स, मोठ्या रनचा धोका कमी करण्यासाठी लहान-स्तरीय प्रयोग चालवणारे संशोधक, RLHF साठी हजारो प्रतिसादांना क्रमवारी देणारे मानवी ॲनोटेटर्स, ती गोष्ट मोडण्याचा प्रयत्न करत शंभर-तासांचे पट्टे घालवणारे रेड टीमर्स. चिप्स हेडलाइन्स मिळवतात, पण एक फ्रंटियर मॉडेल हे जितकं हार्डवेअरचं कौशल्य आहे तितकंच ते लॉजिस्टिक्स आणि मानवी समन्वयाचंही कौशल्य आहे.

तुम्ही जर ट्रिलियन-डॉलर लॅब नसाल तर याचा अर्थ काय

तुम्ही बहुधा तुमच्या गॅरेजमध्ये 1.8-खर्व-पॅरामीटर मॉडेल प्रीट्रेन करणार नाही, आणि हाच एका अर्थाने मुद्दा आहे. शून्यापासून फ्रंटियर मॉडेल बांधण्याचा अडथळा आता अब्जावधी डॉलर्स आणि गिगावॅट विजेमध्ये मोजला जातो — आणि म्हणूनच पृथ्वीवरील फक्त मूठभर संस्थाच ते करतात.

पण इथे अधिक उपयुक्त निष्कर्ष आहे. तुम्ही बांधू शकता ती जवळपास प्रत्येक रंजक गोष्ट त्या कामाच्या वर बसते — एका API मार्गे, एखादं लहान ओपन मॉडेल फाइन-ट्यून करून, रिट्रीव्हल आणि प्रॉम्प्टिंग मार्गे. खर्व-टोकन प्रीट्रेनिंग रन हा तुम्ही भाड्याने घेता तो भाग आहे, पुन्हा करता तो नाही. लॅब्सनी $600 दशलक्ष खर्च केले जेणेकरून तुम्ही प्रति दशलक्ष टोकन्स काही डॉलर्स खर्च करू शकता.

मला जे खरंच अफलातून वाटतं ते म्हणजे यातील किती गोष्टी अजूनही अर्ध-गुपित आहेत. OpenAI ने GPT-4 च्या आर्किटेक्चरची कधीही अधिकृतपणे पुष्टी केली नाही — आपल्याला जे “माहीत” आहे त्यातील बहुतांश लीक्स आणि उत्तम स्रोत असलेल्या विश्लेषणातून येतं [5]. Anthropic सुरक्षा पद्धतींबद्दल बरंच प्रसिद्ध करतं पण नेमक्या मॉडेल आकारांबद्दल गप्प राहतं. तर जर तुम्ही ही संपूर्ण गोष्ट एखादी अचूक, पुष्टी केलेली स्पेसिफिकेशन शीट हवी म्हणून वाचली असेल, तर मला प्रामाणिक राहावं लागेल: त्या इमारतींबाहेर कोणाकडेही ती नाही. आपल्याकडे जे आहे ते म्हणजे लीक्स, हार्डवेअर घोषणा, आणि लॅब्स आपल्याला सांगतात की ते या समस्येवर किती पैसा आणि सिलिकॉन फेकत आहेत — आणि तेवढंही तुमचं डोकं गरगरवायला पुरेसं आहे.