OpenAI और Anthropic अपने मॉडल असल में कैसे ट्रेन करते हैं

OpenAI और Anthropic अपने मॉडल असल में कैसे ट्रेन करते हैं

हर कोई ChatGPT और Claude के बारे में ऐसे बात करता है जैसे ये किसी दिन अचानक प्रकट हो गए हों। आप कुछ टाइप करते हैं, आपको जवाब मिलता है, जादू। पर क्या आपने कभी रुककर यह पूछा है कि इनमें से एक चीज़ को बनाने में असल में क्या लगता है? चैट इंटरफ़ेस नहीं — मॉडल खुद। वह चीज़ जिसमें महीनों लगे, करोड़ों डॉलर लगे, और एक छोटे शहर को बिजली देने जितनी बिजली खर्च हुई।

मैं काफ़ी समय से इसके बारे में उत्सुक रहा हूँ, कुछ हद तक इसलिए क्योंकि ये आँकड़े वाकई तब तक यकीन करने लायक नहीं लगते जब तक आप उनके साथ बैठ न जाएँ। तो मैंने उसमें खोजबीन की जो असल में ज्ञात है — लीक हुई आर्किटेक्चर डिटेल्स, हार्डवेयर घोषणाएँ, डेटा सेंटर निर्माण। इसमें से कुछ सार्वजनिक है, कुछ अच्छी तरह से प्रमाणित अटकलें हैं, और कुछ को लैब्स जानबूझकर अस्पष्ट रखती हैं। चलिए मैं आपको बताता हूँ कि हम असल में क्या जानते हैं।

संक्षिप्त संस्करण: यह एक नहीं, तीन बड़े चरण हैं

जब लोग कहते हैं कि एक मॉडल को “ट्रेन” किया गया, तो वे आम तौर पर एक विशाल गणना की कल्पना करते हैं। यह ग़लत है। आधुनिक फ्रंटियर मॉडल एक बहु-चरणीय पाइपलाइन से गुज़रते हैं जिसे OpenAI ने 2022 में InstructGPT के साथ कमोबेश औपचारिक रूप दिया था [1]। तीन चरण ये हैं:

  1. प्रीट्रेनिंग — मॉडल को खरबों शब्द खिलाएँ और उसे अगला टोकन पूर्वानुमान करना सिखाएँ। यह महँगा हिस्सा है, वही जो महीनों तक GPU क्लस्टर खा जाता है।
  2. सुपरवाइज़्ड फाइन-ट्यूनिंग (SFT) — उसे अच्छे प्रश्न-और-उत्तर व्यवहार के क्यूरेट किए गए उदाहरण दिखाएँ ताकि वह केवल ऑटोकंप्लीट करने के बजाय असल में मददगार बनना सीखे।
  3. मानव प्रतिक्रिया से सुदृढ़ीकरण सीखना (RLHF) — इंसान मॉडल की प्रतिक्रियाओं को रैंक करते हैं, एक अलग “रिवॉर्ड मॉडल” उन प्राथमिकताओं को सीखता है, और मुख्य मॉडल को उन जवाबों की ओर धकेला जाता है जो लोग पसंद करते हैं [1]।

वह आख़िरी चरण ही वह गुप्त मसाला है जो एक कच्चे टेक्स्ट प्रिडिक्टर को ऐसी चीज़ में बदल देता है जो ऐसा महसूस कराती है कि वह आपसे बात कर रही है। Anthropic यहाँ अपना ख़ुद का मोड़ जोड़ता है जिसे Constitutional AI कहते हैं, जहाँ मॉडल पूरी तरह मानव लेबल पर निर्भर रहने के बजाय लिखित सिद्धांतों के एक सेट के विरुद्ध ख़ुद की आलोचना करता है।

training pipeline

ईमानदारी से कहूँ, यहीं पर ज़्यादातर व्याख्याएँ रुक जाती हैं और यहीं यह दिलचस्प हो जाता है। तो चलिए हर हिस्से में और गहराई से जाते हैं।

कुछ भी ट्रेन होने से पहले: डेटा की समस्या

आप बिना डेटा के एक फ्रंटियर मॉडल ट्रेन नहीं कर सकते, और यहाँ का पैमाना ही पहली चीज़ है जो आपके दिमाग़ को चकरा देती है। GPT-3 को लगभग 300 अरब टोकन पर ट्रेन किया गया था। जब तक आप Meta के Llama 3 तक पहुँचते हैं, यह संख्या 15 खरब टोकन से ऊपर है [2]। GPT-4 कथित तौर पर लगभग 13 खरब के आसपास था [3]। एक टोकन मोटे तौर पर एक उप-शब्द टुकड़ा होता है — “running” एक टोकन हो सकता है, या टोकनाइज़र के आधार पर यह “run” और “ning” में बँट सकता है।

यह सारा टेक्स्ट आता कहाँ से है? रीढ़ की हड्डी है Common Crawl, वेब पेजों का एक खुला संग्रह जो हर महीने ताज़ा स्नैपशॉट जारी करता है, जिसे पेटाबाइट में मापा जाता है [2]। पर यहाँ वह बात है जो कोई नहीं बताता: कच्चा वेब डेटा कचरा है, और ज़्यादातर काम उसे साफ़ करने का होता है। टीमें विस्तृत फ़िल्टरिंग पाइपलाइन बनाती हैं जो ये करती हैं:

  • भाषा पहचान — उन भाषाओं को रखें जो आप असल में चाहते हैं
  • बॉयलरप्लेट हटाना — नेविगेशन मेन्यू, कुकी बैनर, विज्ञापन हटाएँ
  • गुणवत्ता स्कोरिंग — निम्न-गुणवत्ता या स्पैमी पेज फेंक दें
  • डीडुप्लिकेशन — दोहराई गई सामग्री हटाएँ ताकि मॉडल ज़रूरत से ज़्यादा रटे नहीं
  • सुरक्षा फ़िल्टरिंग — वाकई घटिया चीज़ें हटा दें [2]

वह डीडुप्लिकेशन कदम चुपके से सबसे बड़ी अड़चनों में से एक है। खरब-टोकन पैमाने पर आप हर दस्तावेज़ की तुलना हर दूसरे दस्तावेज़ से नहीं कर सकते — यह कंप्यूटेशनल रूप से पागलपन है। तो टीमें MinHash LSH और Jaccard समानता जैसी तरकीबों का उपयोग करती हैं ताकि निकट-डुप्लिकेट्स को बिल्कुल सटीक के बजाय अनुमानित रूप से ढूँढ सकें [4]। फिर सब कुछ UTF-8 बाइट्स में बदला जाता है और Byte Pair Encoding के माध्यम से चलाया जाता है ताकि वे टोकन ID बन सकें जिन्हें मॉडल असल में देखता है [2]।

यह चरण ग्लैमरहीन है और इसमें गंभीर इंजीनियरिंग लगती है, पर इसे छोड़ दें तो आपका अरब-डॉलर का ट्रेनिंग रन क्लिकबेट और कमेंट-सेक्शन की गंदगी से सीखेगा। कचरा अंदर, कचरा बाहर — सिवाय इसके कि उस कचरे को प्रोसेस करने में $10 करोड़ लगते हैं।

प्रीट्रेनिंग: जहाँ GPU काम पर लग जाते हैं

अब महँगा हिस्सा। प्रीट्रेनिंग में, मॉडल को टेक्स्ट का एक टुकड़ा दिखाया जाता है और बार-बार, अरबों बार पूछा जाता है: अगला टोकन क्या है? वह अनुमान लगाता है, ग़लत होता है, त्रुटि को वापस नेटवर्क के ज़रिए धकेला जाता है, वज़न थोड़ा सा खिसकते हैं। इसे खरबों टोकन में दोहराएँ और यह चीज़ धीरे-धीरे व्याकरण, तथ्य, तर्क के पैटर्न, कोडिंग — सब कुछ सीख लेती है, और यह सब एक बेवकूफ़ाना सरल लक्ष्य से उभरता है।

पेंच यह है कि “खरबों टोकन में अरबों बार” के लिए स्पष्ट रूप से बेतुकी मात्रा में कंप्यूट की माँग होती है। चलिए हार्डवेयर की बात करते हैं, क्योंकि यही वह हिस्सा है जो यूज़र ने असल में पूछा था।

GPT-4 किस पर चला

व्यापक रूप से उद्धृत लीक हुई डिटेल्स के अनुसार (OpenAI ने इनकी आधिकारिक पुष्टि कभी नहीं की), GPT-4 को लगभग 25,000 NVIDIA A100 GPU पर करीब 90–100 दिनों में ट्रेन किया गया था [3][5]। मॉडल खुद कथित तौर पर लगभग 1.8 खरब पैरामीटर का है जो एक Mixture-of-Experts डिज़ाइन का उपयोग करता है — लगभग 111B पैरामीटर वाले 16 एक्सपर्ट, जहाँ पूरे नेटवर्क के बजाय प्रति टोकन केवल कुछ ही सक्रिय होते हैं [5]। कच्चा कंप्यूट लगभग 2 × 10²⁵ FLOPs तक पहुँचा, और अकेले ट्रेनिंग रन की अनुमानित लागत $6.3 करोड़ थी [3]।

GPT-5 कथित तौर पर किस पर चलता है

आगे बढ़ें और हार्डवेयर पीढ़ी NVIDIA के Hopper चिप्स में पलट जाती है। रिपोर्ट्स GPT-5 की ट्रेनिंग को लगभग 50,000 H100 GPU पर आँकती हैं, जो कुल मिलाकर लगभग 14.4 करोड़ GPU-घंटे है, जिसकी अनुमानित लागत $60 करोड़ से ऊपर है [6]। NVIDIA ने ख़ुद कहा है कि GPT-5 को H100 और H200 GPU पर ट्रेन किया गया [7]। H200 वह अपग्रेड है जिसने OpenAI को ज़्यादा साँस लेने की जगह दी: 4.8 TB/s बैंडविड्थ पर 141 GB मेमोरी, बनाम H100 की 80 GB [8]।

Anthropic किस पर चलता है

यहीं पर यह वाकई अलग हो जाता है। Anthropic भारी रूप से Amazon पर निर्भर है — NVIDIA पर नहीं — Project Rainier के ज़रिए, जो पृथ्वी पर सबसे बड़े AI कंप्यूट क्लस्टरों में से एक है, जो AWS के कस्टम Trainium2 सिलिकॉन पर बना है। Rainier 2025 में लगभग पाँच लाख Trainium2 चिप्स के साथ ऑनलाइन आया, और AWS का कहना है कि उस साल के अंत तक Claude के 10 लाख से ज़्यादा Trainium2 चिप्स पर चलने की उम्मीद थी [9]। यह उस कंप्यूट से पाँच गुना से ज़्यादा है जो Anthropic ने अपने पिछले मॉडलों के लिए इस्तेमाल किया था [9]।

आर्किटेक्चर इन चिप्स को UltraServers के साथ जोड़ता है — 16 Trainium2 चिप्स वाले चार सर्वर प्रत्येक — जो आंतरिक रूप से हाई-स्पीड NeuronLinks पर और क्लस्टरों के बीच Elastic Fabric Adapter नेटवर्किंग के ज़रिए जुड़े हैं [9]। और वे रुक नहीं रहे: Anthropic ने AWS पर $100 अरब से ज़्यादा खर्च करने और Trainium2, Trainium3, और उससे आगे में 5 गीगावाट तक की क्षमता सुरक्षित करने की प्रतिबद्धता जताई [10]। उन्होंने और अधिक कस्टम चिप्स के लिए Google और Broadcom के साथ एक अलग सौदा भी किया है [11]। जब आप सुनते हैं “कंप्यूट नया तेल है,” तो व्यवहार में यह ऐसा ही दिखता है।

GPU पीढ़ियाँ, आमने-सामने

चिपआर्किटेक्चरमेमोरीबैंडविड्थउल्लेखनीय
A100Ampere40/80 GB~2 TB/sGPT-4 ट्रेन किया (कथित तौर पर) [5]
H100Hopper80 GB3.35 TB/s2023–24 का वर्कहॉर्स [8]
H200Hopper141 GB4.89 TB/sमेमोरी अपग्रेड, वही डाई [8]
B200Blackwell180 GB8 TB/s~4x H100 ट्रेनिंग थ्रूपुट, FP4 [12]
Trainium2AWS कस्टमNeuronLink फ़ैब्रिकAnthropic का Project Rainier [9]

H100 से Blackwell के B200 तक की छलाँग बहुत मायने रखती है। B200 प्रति GPU 1.8 TB/s पर NVLink 5.0 लाता है (H100 का दोगुना) और नए FP4 प्रिसिज़न टेंसर कोर लाता है जो ट्रांसफ़ॉर्मर मॉडलों पर लगभग 4 गुना ट्रेनिंग थ्रूपुट देते हैं [12]। जब आप दसियों हज़ार चिप्स में GPU-घंटे के हिसाब से भुगतान कर रहे हों, तो 4x तेज़ी एक नाइस-टू-हैव नहीं है — यह तीन महीने के रन और तीन हफ़्ते के रन के बीच का फ़र्क़ है।

1,00,000 GPU को आपस में जोड़ना अपने आप में एक दुःस्वप्न है

यहाँ एक बात है जिसने मुझे चौंका दिया: GPU ख़रीदना लगभग आसान हिस्सा है। उनमें से 1,00,000 को एक कंप्यूटर की तरह काम करवाना वहाँ है जहाँ असली इंजीनियरिंग का दर्द रहता है।

एक अकेले 1,00,000 H100 क्लस्टर को लगभग 150 मेगावाट डेटा सेंटर क्षमता की ज़रूरत होती है और यह एक साल में लगभग 1.59 टेरावाट-घंटे बिजली जला देता है — मानक दरों पर अकेले बिजली की लागत में लगभग $12.4 करोड़ [13]। सर्वर खुद लगभग $4 अरब के पड़ते हैं [13]। यह तब है जब आपने अभी कुछ ट्रेन भी नहीं किया है।

फिर नेटवर्किंग है। हर GPU को मॉडल का अपना हिस्सा लगातार हर दूसरे GPU के साथ साझा करना होता है, इसलिए इंटरकनेक्ट — InfiniBand या हाई-स्पीड Ethernet — अड़चन बन जाता है। xAI का Colossus सुपरकंप्यूटर यहाँ का चरम उदाहरण है। उन्होंने इसे 122 दिनों में 1,00,000 H100 के साथ बनाया, फिर और 92 दिनों में इसे दोगुना करके 2,00,000 GPU कर दिया [14]। उनका बिल्डिंग ब्लॉक 64 H100 का एक Supermicro लिक्विड-कूल्ड रैक है, जिसे 8 रैक (512 GPU) के समूहों में मिनी-क्लस्टर के रूप में व्यवस्थित किया गया है [15]। असामान्य रूप से, उन्होंने InfiniBand को पूरी तरह छोड़ दिया और NVIDIA के Spectrum-X Ethernet फ़ैब्रिक का उपयोग किया [14]। 2025 के अंत तक Colossus में कथित तौर पर 1,50,000 H100, 50,000 H200, और 30,000 GB200 थे [14]।

और इस पैमाने पर, विफलताएँ कोई किनारे का मामला नहीं हैं — वे लगातार होती हैं। दसियों हज़ार GPU के महीनों तक पूरी रफ़्तार से चलने के साथ, अलग-अलग चिप्स, केबल, और नोड नियमित रूप से मर जाते हैं। यही वजह है कि लैब्स चेकपॉइंटिंग पर इतना भरोसा करती हैं: समय-समय पर पूरे मॉडल की स्थिति सहेजना ताकि जब (अगर नहीं) कुछ विफल हो, तो आप शून्य से नहीं बल्कि आख़िरी चेकपॉइंट से फिर शुरू करें [13]। चेकपॉइंट न करने की वजह से $60 करोड़ के रन का एक हफ़्ता गँवा दें और, ख़ैर, आपकी तिमाही ख़राब जाने वाली है।

cluster cost

तो शुरू से अंत तक असल में कितना समय लगता है?

यह वह सवाल है जो मुझे लगता है कि ज़्यादातर लोग ग़लत समझते हैं, क्योंकि वे मान लेते हैं कि “ट्रेनिंग समय” का मतलब “पूरी समय-सीमा” है। ऐसा नहीं है। चलिए मैं इसे उन चरणों में बाँटता हूँ जो असल में कैलेंडर समय खाते हैं।

खुद प्रीट्रेनिंग रन

मुख्य कंप्यूट रन — GPU-पिघलाने वाला हिस्सा — एक फ्रंटियर मॉडल के लिए 2 से 4 महीने के क्रम का है। GPT-4 का कथित तौर पर 25,000 A100 पर लगभग 100 दिन था [5]। यही वह संख्या है जो आप आम तौर पर उद्धृत देखते हैं। पर यह असली समय-सीमा का सबसे छोटा हिस्सा भी है।

इसके आसपास सब कुछ

GPT-4 लीक के अनुसार, असली ट्रेनिंग में लगभग 3 महीने लगे, और रिलीज़ से पहले उस पर लगभग 6 अतिरिक्त महीने की सुरक्षा परीक्षण परत चढ़ाई गई [16]। तो कंप्यूट पूरी तस्वीर का अधिकतम एक तिहाई है।

यहाँ एक फ्रंटियर मॉडल के लिए सार्वजनिक रूप से ज्ञात बातों के आधार पर एक मोटा शुरू-से-अंत तक का विभाजन है:

चरणमोटे तौर पर कितना लंबाक्या हो रहा है
डेटा संग्रह और क्यूरेशनमहीने (अक्सर ओवरलैपिंग)खरबों टोकन को क्रॉल, फ़िल्टर, डीडुप, टोकनाइज़ करना [2]
आर्किटेक्चर और छोटे-पैमाने के प्रयोगहफ़्तों से महीनोंप्रतिबद्ध होने से पहले छोटे पैमाने पर डिज़ाइन परखना
मुख्य प्रीट्रेनिंग रन2–4 महीनेबड़ा GPU क्लस्टर काम [5]
SFT + RLHFहफ़्तों से कुछ महीनों तकमददगारी और प्राथमिकताएँ सिखाना [1]
सुरक्षा परीक्षण और रेड टीमिंगमहीने (GPT-4 के लिए ~6)रिलीज़ से पहले नुकसान के लिए तनाव-परीक्षण [16]
कुल, विचार से लॉन्च तकअक्सर ~9–18 महीने

वह सुरक्षा चरण कोई रबर स्टैम्प नहीं है। उदाहरण के लिए, Anthropic की रेड टीमिंग में विषय-विशेषज्ञों और LLM विशेषज्ञों को खतरनाक क्षमताओं के लिए मॉडल की जाँच में प्रति डोमेन 100+ घंटे बिताने पड़ते हैं [17]। Claude 3 भेजने से पहले, उनकी Trust & Safety टीम ने टेक्स्ट और इमेज दोनों जोखिमों के लिए रेड-टीम किया और बाहरी परीक्षकों को लाया [17]। Anthropic और OpenAI दोनों के मॉडल अमेरिकी और ब्रिटिश AI Safety Institutes के साथ डिप्लॉयमेंट-पूर्व परीक्षण से भी गुज़रे हैं [17]। तो जब एक लैब कहती है कि एक मॉडल “ट्रेनिंग पूरी कर चुका,” तो अक्सर आधे साल की कुरेदना, ठोकना-पीटना, और पैच करना अभी बाक़ी होता है।

और ईमानदारी से, लॉन्च के बाद भी यह वाकई कभी ख़त्म नहीं होता। निरंतर फाइन-ट्यूनिंग पास होते हैं, विज़न घटक (GPT-4 की इमेज क्षमताओं को कथित तौर पर टेक्स्ट प्रीट्रेनिंग के बाद और 2 खरब टोकन पर ट्रेन किया गया था) [5], और मूल्यांकन तथा पुनरावृत्ति का अंतहीन चक्र।

आख़िर इस सब की लागत इतनी ज़्यादा क्यों है?

चलिए डॉलर को एक जगह रखता हूँ, क्योंकि पैमाना ही पूरी कहानी है:

  • GPT-4 ट्रेनिंग रन: ~$6.3 करोड़ [3]
  • GPT-5 ट्रेनिंग रन: अनुमानित $60 करोड़+ [6]
  • एक अकेला 1 लाख-GPU क्लस्टर: हार्डवेयर में ~$4 अरब, बिजली में ~$12.4 करोड़/वर्ष [13]
  • Anthropic की AWS प्रतिबद्धता: एक दशक में $100 अरब+ [10]

कारण लगभग शर्मनाक हद तक सरल है। यह है कंप्यूट। आप ग्रह पर सबसे ज़्यादा माँग वाली चिप्स में से दसियों हज़ार किराए पर ले रहे हैं (या ख़रीद रहे हैं), उन्हें महीनों तक पूरी रफ़्तार पर चला रहे हैं, ऐसे डेटा सेंटरों में जो एक शहर जितनी बिजली खींचते हैं। उन GPU-घंटों में से हर एक की लागत पैसा है, हर वॉट की लागत पैसा है, और हर विफल रन जिसे फिर से शुरू करना पड़ता है उसकी लागत पैसा है। इसे पूरी पाइपलाइन में जोड़ें और करोड़ों डॉलर पागलपन जैसा लगना बंद कर देते हैं और अनिवार्य लगने लगते हैं।

एक शांत लागत भी है जिसे ज़्यादातर कवरेज नज़रअंदाज़ कर देती है: लोग। क्यूरेशन पाइपलाइन बनाने वाले डेटा इंजीनियर, बड़े रन को डी-रिस्क करने के लिए छोटे-पैमाने के प्रयोग चलाने वाले शोधकर्ता, RLHF के लिए हज़ारों प्रतिक्रियाओं को रैंक करने वाले मानव एनोटेटर, उस चीज़ को तोड़ने की कोशिश में सौ-घंटे के दौर बिताने वाले रेड टीमर। चिप्स को सुर्खियाँ मिलती हैं, पर एक फ्रंटियर मॉडल जितना हार्डवेयर का कारनामा है उतना ही लॉजिस्टिक्स और मानव-समन्वय का भी।

इसका क्या मतलब है अगर आप एक खरब-डॉलर की लैब नहीं हैं

आप शायद अपने गैरेज में 1.8-खरब-पैरामीटर मॉडल प्रीट्रेन नहीं करने वाले, और बात कुछ हद तक यही है। शुरू से एक फ्रंटियर मॉडल बनाने की बाधा अब अरबों डॉलर और गीगावाट बिजली में मापी जाती है — यही कारण है कि पृथ्वी पर केवल मुट्ठी भर संगठन ही ऐसा करते हैं।

पर यहाँ अधिक उपयोगी निष्कर्ष है। लगभग हर दिलचस्प चीज़ जो आप बना सकते हैं, उस काम के ऊपर बैठती है — एक API के ज़रिए, एक छोटे ओपन मॉडल को फाइन-ट्यून करके, रिट्रीवल और प्रॉम्प्टिंग के ज़रिए। खरब-टोकन प्रीट्रेनिंग रन वह हिस्सा है जिसे आप किराए पर लेते हैं, वह हिस्सा नहीं जिसे आप दोबारा करते हैं। लैब्स ने $60 करोड़ खर्च किए ताकि आप प्रति दस लाख टोकन कुछ डॉलर खर्च कर सकें।

जो मुझे वाकई अजीब लगता है वह यह है कि इसमें से कितना अभी भी आधा-गुप्त है। OpenAI ने GPT-4 के आर्किटेक्चर की कभी आधिकारिक पुष्टि नहीं की — जो हम “जानते” हैं उसका ज़्यादातर हिस्सा लीक और अच्छी तरह से प्रमाणित विश्लेषण से आता है [5]। Anthropic सुरक्षा विधियों के बारे में बहुत कुछ प्रकाशित करता है पर सटीक मॉडल आकारों पर चुप रहता है। तो अगर आपने यह पूरी चीज़ एक सटीक, पुष्ट स्पेसिफिकेशन शीट की चाहत में पढ़ी, तो मुझे ईमानदार रहना होगा: उन इमारतों के बाहर किसी के पास वह नहीं है। हमारे पास जो है वह है लीक, हार्डवेयर घोषणाएँ, और लैब्स द्वारा हमें यह बताना कि वे इस समस्या पर कितना पैसा और सिलिकॉन झोंक रहे हैं — और वह भी आपके सिर को चकरा देने के लिए काफ़ी है।

स्रोत

  1. Pretraining: Breaking Down the Modern LLM Training Pipeline — MLOps Community
  2. Curating Trillion-Token Datasets — NVIDIA Technical Blog
  3. GPT-4 architecture, datasets, costs and more leaked — The Decoder
  4. Data Deduplication at Trillion Scale — Zilliz Blog
  5. GPT-4 Architecture, Infrastructure, Training Dataset, Costs — SemiAnalysis
  6. How Many GPUs to Train GPT-5 — CometAPI
  7. OpenAI’s GPT-5 was trained on NVIDIA H100 and H200 GPUs — NVIDIA Data Center
  8. NVIDIA H200 GPU: Specs, VRAM, Price — RunPod
  9. AWS activates Project Rainier — About Amazon
  10. Amazon announces additional $5B Anthropic investment — About Amazon
  11. Anthropic expands partnership with Google and Broadcom — Anthropic
  12. NVIDIA B200 vs H100 — Clarifai
  13. 100,000 H100 Clusters: Power, Network, Reliability — SemiAnalysis
  14. xAI Colossus supercomputer with 100K H100 GPUs comes online — Tom’s Hardware
  15. Inside the 100K GPU xAI Colossus Cluster — ServeTheHome
  16. GPT-4 Details Revealed — Patrick McGuinness
  17. Frontier Threats Red Teaming for AI Safety — Anthropic