OpenAI और Anthropic अपने मॉडल असल में कैसे ट्रेन करते हैं

हर कोई ChatGPT और Claude के बारे में ऐसे बात करता है जैसे ये किसी दिन अचानक प्रकट हो गए हों। आप कुछ टाइप करते हैं, आपको जवाब मिलता है, जादू। पर क्या आपने कभी रुककर यह पूछा है कि इनमें से एक चीज़ को बनाने में असल में क्या लगता है? चैट इंटरफ़ेस नहीं — मॉडल खुद। वह चीज़ जिसमें महीनों लगे, करोड़ों डॉलर लगे, और एक छोटे शहर को बिजली देने जितनी बिजली खर्च हुई।

मैं काफ़ी समय से इसके बारे में उत्सुक रहा हूँ, कुछ हद तक इसलिए क्योंकि ये आँकड़े वाकई तब तक यकीन करने लायक नहीं लगते जब तक आप उनके साथ बैठ न जाएँ। तो मैंने उसमें खोजबीन की जो असल में ज्ञात है — लीक हुई आर्किटेक्चर डिटेल्स, हार्डवेयर घोषणाएँ, डेटा सेंटर निर्माण। इसमें से कुछ सार्वजनिक है, कुछ अच्छी तरह से प्रमाणित अटकलें हैं, और कुछ को लैब्स जानबूझकर अस्पष्ट रखती हैं। चलिए मैं आपको बताता हूँ कि हम असल में क्या जानते हैं।

संक्षिप्त संस्करण: यह एक नहीं, तीन बड़े चरण हैं

जब लोग कहते हैं कि एक मॉडल को “ट्रेन” किया गया, तो वे आम तौर पर एक विशाल गणना की कल्पना करते हैं। यह ग़लत है। आधुनिक फ्रंटियर मॉडल एक बहु-चरणीय पाइपलाइन से गुज़रते हैं जिसे OpenAI ने 2022 में InstructGPT के साथ कमोबेश औपचारिक रूप दिया था [1]। तीन चरण ये हैं:

प्रीट्रेनिंग — मॉडल को खरबों शब्द खिलाएँ और उसे अगला टोकन पूर्वानुमान करना सिखाएँ। यह महँगा हिस्सा है, वही जो महीनों तक GPU क्लस्टर खा जाता है।
सुपरवाइज़्ड फाइन-ट्यूनिंग (SFT) — उसे अच्छे प्रश्न-और-उत्तर व्यवहार के क्यूरेट किए गए उदाहरण दिखाएँ ताकि वह केवल ऑटोकंप्लीट करने के बजाय असल में मददगार बनना सीखे।
मानव प्रतिक्रिया से सुदृढ़ीकरण सीखना (RLHF) — इंसान मॉडल की प्रतिक्रियाओं को रैंक करते हैं, एक अलग “रिवॉर्ड मॉडल” उन प्राथमिकताओं को सीखता है, और मुख्य मॉडल को उन जवाबों की ओर धकेला जाता है जो लोग पसंद करते हैं [1]।

वह आख़िरी चरण ही वह गुप्त मसाला है जो एक कच्चे टेक्स्ट प्रिडिक्टर को ऐसी चीज़ में बदल देता है जो ऐसा महसूस कराती है कि वह आपसे बात कर रही है। Anthropic यहाँ अपना ख़ुद का मोड़ जोड़ता है जिसे Constitutional AI कहते हैं, जहाँ मॉडल पूरी तरह मानव लेबल पर निर्भर रहने के बजाय लिखित सिद्धांतों के एक सेट के विरुद्ध ख़ुद की आलोचना करता है।

training pipeline

ईमानदारी से कहूँ, यहीं पर ज़्यादातर व्याख्याएँ रुक जाती हैं और यहीं यह दिलचस्प हो जाता है। तो चलिए हर हिस्से में और गहराई से जाते हैं।

कुछ भी ट्रेन होने से पहले: डेटा की समस्या

आप बिना डेटा के एक फ्रंटियर मॉडल ट्रेन नहीं कर सकते, और यहाँ का पैमाना ही पहली चीज़ है जो आपके दिमाग़ को चकरा देती है। GPT-3 को लगभग 300 अरब टोकन पर ट्रेन किया गया था। जब तक आप Meta के Llama 3 तक पहुँचते हैं, यह संख्या 15 खरब टोकन से ऊपर है [2]। GPT-4 कथित तौर पर लगभग 13 खरब के आसपास था [3]। एक टोकन मोटे तौर पर एक उप-शब्द टुकड़ा होता है — “running” एक टोकन हो सकता है, या टोकनाइज़र के आधार पर यह “run” और “ning” में बँट सकता है।

यह सारा टेक्स्ट आता कहाँ से है? रीढ़ की हड्डी है Common Crawl, वेब पेजों का एक खुला संग्रह जो हर महीने ताज़ा स्नैपशॉट जारी करता है, जिसे पेटाबाइट में मापा जाता है [2]। पर यहाँ वह बात है जो कोई नहीं बताता: कच्चा वेब डेटा कचरा है, और ज़्यादातर काम उसे साफ़ करने का होता है। टीमें विस्तृत फ़िल्टरिंग पाइपलाइन बनाती हैं जो ये करती हैं:

भाषा पहचान — उन भाषाओं को रखें जो आप असल में चाहते हैं
बॉयलरप्लेट हटाना — नेविगेशन मेन्यू, कुकी बैनर, विज्ञापन हटाएँ
गुणवत्ता स्कोरिंग — निम्न-गुणवत्ता या स्पैमी पेज फेंक दें
डीडुप्लिकेशन — दोहराई गई सामग्री हटाएँ ताकि मॉडल ज़रूरत से ज़्यादा रटे नहीं
सुरक्षा फ़िल्टरिंग — वाकई घटिया चीज़ें हटा दें [2]

वह डीडुप्लिकेशन कदम चुपके से सबसे बड़ी अड़चनों में से एक है। खरब-टोकन पैमाने पर आप हर दस्तावेज़ की तुलना हर दूसरे दस्तावेज़ से नहीं कर सकते — यह कंप्यूटेशनल रूप से पागलपन है। तो टीमें MinHash LSH और Jaccard समानता जैसी तरकीबों का उपयोग करती हैं ताकि निकट-डुप्लिकेट्स को बिल्कुल सटीक के बजाय अनुमानित रूप से ढूँढ सकें [4]। फिर सब कुछ UTF-8 बाइट्स में बदला जाता है और Byte Pair Encoding के माध्यम से चलाया जाता है ताकि वे टोकन ID बन सकें जिन्हें मॉडल असल में देखता है [2]।

यह चरण ग्लैमरहीन है और इसमें गंभीर इंजीनियरिंग लगती है, पर इसे छोड़ दें तो आपका अरब-डॉलर का ट्रेनिंग रन क्लिकबेट और कमेंट-सेक्शन की गंदगी से सीखेगा। कचरा अंदर, कचरा बाहर — सिवाय इसके कि उस कचरे को प्रोसेस करने में $10 करोड़ लगते हैं।

प्रीट्रेनिंग: जहाँ GPU काम पर लग जाते हैं

अब महँगा हिस्सा। प्रीट्रेनिंग में, मॉडल को टेक्स्ट का एक टुकड़ा दिखाया जाता है और बार-बार, अरबों बार पूछा जाता है: अगला टोकन क्या है? वह अनुमान लगाता है, ग़लत होता है, त्रुटि को वापस नेटवर्क के ज़रिए धकेला जाता है, वज़न थोड़ा सा खिसकते हैं। इसे खरबों टोकन में दोहराएँ और यह चीज़ धीरे-धीरे व्याकरण, तथ्य, तर्क के पैटर्न, कोडिंग — सब कुछ सीख लेती है, और यह सब एक बेवकूफ़ाना सरल लक्ष्य से उभरता है।

पेंच यह है कि “खरबों टोकन में अरबों बार” के लिए स्पष्ट रूप से बेतुकी मात्रा में कंप्यूट की माँग होती है। चलिए हार्डवेयर की बात करते हैं, क्योंकि यही वह हिस्सा है जो यूज़र ने असल में पूछा था।

GPT-4 किस पर चला

व्यापक रूप से उद्धृत लीक हुई डिटेल्स के अनुसार (OpenAI ने इनकी आधिकारिक पुष्टि कभी नहीं की), GPT-4 को लगभग 25,000 NVIDIA A100 GPU पर करीब 90–100 दिनों में ट्रेन किया गया था [3][5]। मॉडल खुद कथित तौर पर लगभग 1.8 खरब पैरामीटर का है जो एक Mixture-of-Experts डिज़ाइन का उपयोग करता है — लगभग 111B पैरामीटर वाले 16 एक्सपर्ट, जहाँ पूरे नेटवर्क के बजाय प्रति टोकन केवल कुछ ही सक्रिय होते हैं [5]। कच्चा कंप्यूट लगभग 2 × 10²⁵ FLOPs तक पहुँचा, और अकेले ट्रेनिंग रन की अनुमानित लागत $6.3 करोड़ थी [3]।

GPT-5 कथित तौर पर किस पर चलता है

आगे बढ़ें और हार्डवेयर पीढ़ी NVIDIA के Hopper चिप्स में पलट जाती है। रिपोर्ट्स GPT-5 की ट्रेनिंग को लगभग 50,000 H100 GPU पर आँकती हैं, जो कुल मिलाकर लगभग 14.4 करोड़ GPU-घंटे है, जिसकी अनुमानित लागत $60 करोड़ से ऊपर है [6]। NVIDIA ने ख़ुद कहा है कि GPT-5 को H100 और H200 GPU पर ट्रेन किया गया [7]। H200 वह अपग्रेड है जिसने OpenAI को ज़्यादा साँस लेने की जगह दी: 4.8 TB/s बैंडविड्थ पर 141 GB मेमोरी, बनाम H100 की 80 GB [8]।

Anthropic किस पर चलता है

यहीं पर यह वाकई अलग हो जाता है। Anthropic भारी रूप से Amazon पर निर्भर है — NVIDIA पर नहीं — Project Rainier के ज़रिए, जो पृथ्वी पर सबसे बड़े AI कंप्यूट क्लस्टरों में से एक है, जो AWS के कस्टम Trainium2 सिलिकॉन पर बना है। Rainier 2025 में लगभग पाँच लाख Trainium2 चिप्स के साथ ऑनलाइन आया, और AWS का कहना है कि उस साल के अंत तक Claude के 10 लाख से ज़्यादा Trainium2 चिप्स पर चलने की उम्मीद थी [9]। यह उस कंप्यूट से पाँच गुना से ज़्यादा है जो Anthropic ने अपने पिछले मॉडलों के लिए इस्तेमाल किया था [9]।

आर्किटेक्चर इन चिप्स को UltraServers के साथ जोड़ता है — 16 Trainium2 चिप्स वाले चार सर्वर प्रत्येक — जो आंतरिक रूप से हाई-स्पीड NeuronLinks पर और क्लस्टरों के बीच Elastic Fabric Adapter नेटवर्किंग के ज़रिए जुड़े हैं [9]। और वे रुक नहीं रहे: Anthropic ने AWS पर $100 अरब से ज़्यादा खर्च करने और Trainium2, Trainium3, और उससे आगे में 5 गीगावाट तक की क्षमता सुरक्षित करने की प्रतिबद्धता जताई [10]। उन्होंने और अधिक कस्टम चिप्स के लिए Google और Broadcom के साथ एक अलग सौदा भी किया है [11]। जब आप सुनते हैं “कंप्यूट नया तेल है,” तो व्यवहार में यह ऐसा ही दिखता है।

GPU पीढ़ियाँ, आमने-सामने

चिप	आर्किटेक्चर	मेमोरी	बैंडविड्थ	उल्लेखनीय
A100	Ampere	40/80 GB	~2 TB/s	GPT-4 ट्रेन किया (कथित तौर पर) [5]
H100	Hopper	80 GB	3.35 TB/s	2023–24 का वर्कहॉर्स [8]
H200	Hopper	141 GB	4.89 TB/s	मेमोरी अपग्रेड, वही डाई [8]
B200	Blackwell	180 GB	8 TB/s	~4x H100 ट्रेनिंग थ्रूपुट, FP4 [12]
Trainium2	AWS कस्टम	—	NeuronLink फ़ैब्रिक	Anthropic का Project Rainier [9]

H100 से Blackwell के B200 तक की छलाँग बहुत मायने रखती है। B200 प्रति GPU 1.8 TB/s पर NVLink 5.0 लाता है (H100 का दोगुना) और नए FP4 प्रिसिज़न टेंसर कोर लाता है जो ट्रांसफ़ॉर्मर मॉडलों पर लगभग 4 गुना ट्रेनिंग थ्रूपुट देते हैं [12]। जब आप दसियों हज़ार चिप्स में GPU-घंटे के हिसाब से भुगतान कर रहे हों, तो 4x तेज़ी एक नाइस-टू-हैव नहीं है — यह तीन महीने के रन और तीन हफ़्ते के रन के बीच का फ़र्क़ है।

1,00,000 GPU को आपस में जोड़ना अपने आप में एक दुःस्वप्न है

यहाँ एक बात है जिसने मुझे चौंका दिया: GPU ख़रीदना लगभग आसान हिस्सा है। उनमें से 1,00,000 को एक कंप्यूटर की तरह काम करवाना वहाँ है जहाँ असली इंजीनियरिंग का दर्द रहता है।

एक अकेले 1,00,000 H100 क्लस्टर को लगभग 150 मेगावाट डेटा सेंटर क्षमता की ज़रूरत होती है और यह एक साल में लगभग 1.59 टेरावाट-घंटे बिजली जला देता है — मानक दरों पर अकेले बिजली की लागत में लगभग $12.4 करोड़ [13]। सर्वर खुद लगभग $4 अरब के पड़ते हैं [13]। यह तब है जब आपने अभी कुछ ट्रेन भी नहीं किया है।

फिर नेटवर्किंग है। हर GPU को मॉडल का अपना हिस्सा लगातार हर दूसरे GPU के साथ साझा करना होता है, इसलिए इंटरकनेक्ट — InfiniBand या हाई-स्पीड Ethernet — अड़चन बन जाता है। xAI का Colossus सुपरकंप्यूटर यहाँ का चरम उदाहरण है। उन्होंने इसे 122 दिनों में 1,00,000 H100 के साथ बनाया, फिर और 92 दिनों में इसे दोगुना करके 2,00,000 GPU कर दिया [14]। उनका बिल्डिंग ब्लॉक 64 H100 का एक Supermicro लिक्विड-कूल्ड रैक है, जिसे 8 रैक (512 GPU) के समूहों में मिनी-क्लस्टर के रूप में व्यवस्थित किया गया है [15]। असामान्य रूप से, उन्होंने InfiniBand को पूरी तरह छोड़ दिया और NVIDIA के Spectrum-X Ethernet फ़ैब्रिक का उपयोग किया [14]। 2025 के अंत तक Colossus में कथित तौर पर 1,50,000 H100, 50,000 H200, और 30,000 GB200 थे [14]।

और इस पैमाने पर, विफलताएँ कोई किनारे का मामला नहीं हैं — वे लगातार होती हैं। दसियों हज़ार GPU के महीनों तक पूरी रफ़्तार से चलने के साथ, अलग-अलग चिप्स, केबल, और नोड नियमित रूप से मर जाते हैं। यही वजह है कि लैब्स चेकपॉइंटिंग पर इतना भरोसा करती हैं: समय-समय पर पूरे मॉडल की स्थिति सहेजना ताकि जब (अगर नहीं) कुछ विफल हो, तो आप शून्य से नहीं बल्कि आख़िरी चेकपॉइंट से फिर शुरू करें [13]। चेकपॉइंट न करने की वजह से $60 करोड़ के रन का एक हफ़्ता गँवा दें और, ख़ैर, आपकी तिमाही ख़राब जाने वाली है।

cluster cost

तो शुरू से अंत तक असल में कितना समय लगता है?

यह वह सवाल है जो मुझे लगता है कि ज़्यादातर लोग ग़लत समझते हैं, क्योंकि वे मान लेते हैं कि “ट्रेनिंग समय” का मतलब “पूरी समय-सीमा” है। ऐसा नहीं है। चलिए मैं इसे उन चरणों में बाँटता हूँ जो असल में कैलेंडर समय खाते हैं।

खुद प्रीट्रेनिंग रन

मुख्य कंप्यूट रन — GPU-पिघलाने वाला हिस्सा — एक फ्रंटियर मॉडल के लिए 2 से 4 महीने के क्रम का है। GPT-4 का कथित तौर पर 25,000 A100 पर लगभग 100 दिन था [5]। यही वह संख्या है जो आप आम तौर पर उद्धृत देखते हैं। पर यह असली समय-सीमा का सबसे छोटा हिस्सा भी है।

इसके आसपास सब कुछ

GPT-4 लीक के अनुसार, असली ट्रेनिंग में लगभग 3 महीने लगे, और रिलीज़ से पहले उस पर लगभग 6 अतिरिक्त महीने की सुरक्षा परीक्षण परत चढ़ाई गई [16]। तो कंप्यूट पूरी तस्वीर का अधिकतम एक तिहाई है।

यहाँ एक फ्रंटियर मॉडल के लिए सार्वजनिक रूप से ज्ञात बातों के आधार पर एक मोटा शुरू-से-अंत तक का विभाजन है:

चरण	मोटे तौर पर कितना लंबा	क्या हो रहा है
डेटा संग्रह और क्यूरेशन	महीने (अक्सर ओवरलैपिंग)	खरबों टोकन को क्रॉल, फ़िल्टर, डीडुप, टोकनाइज़ करना [2]
आर्किटेक्चर और छोटे-पैमाने के प्रयोग	हफ़्तों से महीनों	प्रतिबद्ध होने से पहले छोटे पैमाने पर डिज़ाइन परखना
मुख्य प्रीट्रेनिंग रन	2–4 महीने	बड़ा GPU क्लस्टर काम [5]
SFT + RLHF	हफ़्तों से कुछ महीनों तक	मददगारी और प्राथमिकताएँ सिखाना [1]
सुरक्षा परीक्षण और रेड टीमिंग	महीने (GPT-4 के लिए ~6)	रिलीज़ से पहले नुकसान के लिए तनाव-परीक्षण [16]
कुल, विचार से लॉन्च तक	अक्सर ~9–18 महीने	—

वह सुरक्षा चरण कोई रबर स्टैम्प नहीं है। उदाहरण के लिए, Anthropic की रेड टीमिंग में विषय-विशेषज्ञों और LLM विशेषज्ञों को खतरनाक क्षमताओं के लिए मॉडल की जाँच में प्रति डोमेन 100+ घंटे बिताने पड़ते हैं [17]। Claude 3 भेजने से पहले, उनकी Trust & Safety टीम ने टेक्स्ट और इमेज दोनों जोखिमों के लिए रेड-टीम किया और बाहरी परीक्षकों को लाया [17]। Anthropic और OpenAI दोनों के मॉडल अमेरिकी और ब्रिटिश AI Safety Institutes के साथ डिप्लॉयमेंट-पूर्व परीक्षण से भी गुज़रे हैं [17]। तो जब एक लैब कहती है कि एक मॉडल “ट्रेनिंग पूरी कर चुका,” तो अक्सर आधे साल की कुरेदना, ठोकना-पीटना, और पैच करना अभी बाक़ी होता है।

और ईमानदारी से, लॉन्च के बाद भी यह वाकई कभी ख़त्म नहीं होता। निरंतर फाइन-ट्यूनिंग पास होते हैं, विज़न घटक (GPT-4 की इमेज क्षमताओं को कथित तौर पर टेक्स्ट प्रीट्रेनिंग के बाद और 2 खरब टोकन पर ट्रेन किया गया था) [5], और मूल्यांकन तथा पुनरावृत्ति का अंतहीन चक्र।

आख़िर इस सब की लागत इतनी ज़्यादा क्यों है?

चलिए डॉलर को एक जगह रखता हूँ, क्योंकि पैमाना ही पूरी कहानी है:

GPT-4 ट्रेनिंग रन: ~$6.3 करोड़ [3]
GPT-5 ट्रेनिंग रन: अनुमानित $60 करोड़+ [6]
एक अकेला 1 लाख-GPU क्लस्टर: हार्डवेयर में ~$4 अरब, बिजली में ~$12.4 करोड़/वर्ष [13]
Anthropic की AWS प्रतिबद्धता: एक दशक में $100 अरब+ [10]

कारण लगभग शर्मनाक हद तक सरल है। यह है कंप्यूट। आप ग्रह पर सबसे ज़्यादा माँग वाली चिप्स में से दसियों हज़ार किराए पर ले रहे हैं (या ख़रीद रहे हैं), उन्हें महीनों तक पूरी रफ़्तार पर चला रहे हैं, ऐसे डेटा सेंटरों में जो एक शहर जितनी बिजली खींचते हैं। उन GPU-घंटों में से हर एक की लागत पैसा है, हर वॉट की लागत पैसा है, और हर विफल रन जिसे फिर से शुरू करना पड़ता है उसकी लागत पैसा है। इसे पूरी पाइपलाइन में जोड़ें और करोड़ों डॉलर पागलपन जैसा लगना बंद कर देते हैं और अनिवार्य लगने लगते हैं।

एक शांत लागत भी है जिसे ज़्यादातर कवरेज नज़रअंदाज़ कर देती है: लोग। क्यूरेशन पाइपलाइन बनाने वाले डेटा इंजीनियर, बड़े रन को डी-रिस्क करने के लिए छोटे-पैमाने के प्रयोग चलाने वाले शोधकर्ता, RLHF के लिए हज़ारों प्रतिक्रियाओं को रैंक करने वाले मानव एनोटेटर, उस चीज़ को तोड़ने की कोशिश में सौ-घंटे के दौर बिताने वाले रेड टीमर। चिप्स को सुर्खियाँ मिलती हैं, पर एक फ्रंटियर मॉडल जितना हार्डवेयर का कारनामा है उतना ही लॉजिस्टिक्स और मानव-समन्वय का भी।

इसका क्या मतलब है अगर आप एक खरब-डॉलर की लैब नहीं हैं

आप शायद अपने गैरेज में 1.8-खरब-पैरामीटर मॉडल प्रीट्रेन नहीं करने वाले, और बात कुछ हद तक यही है। शुरू से एक फ्रंटियर मॉडल बनाने की बाधा अब अरबों डॉलर और गीगावाट बिजली में मापी जाती है — यही कारण है कि पृथ्वी पर केवल मुट्ठी भर संगठन ही ऐसा करते हैं।

पर यहाँ अधिक उपयोगी निष्कर्ष है। लगभग हर दिलचस्प चीज़ जो आप बना सकते हैं, उस काम के ऊपर बैठती है — एक API के ज़रिए, एक छोटे ओपन मॉडल को फाइन-ट्यून करके, रिट्रीवल और प्रॉम्प्टिंग के ज़रिए। खरब-टोकन प्रीट्रेनिंग रन वह हिस्सा है जिसे आप किराए पर लेते हैं, वह हिस्सा नहीं जिसे आप दोबारा करते हैं। लैब्स ने $60 करोड़ खर्च किए ताकि आप प्रति दस लाख टोकन कुछ डॉलर खर्च कर सकें।

जो मुझे वाकई अजीब लगता है वह यह है कि इसमें से कितना अभी भी आधा-गुप्त है। OpenAI ने GPT-4 के आर्किटेक्चर की कभी आधिकारिक पुष्टि नहीं की — जो हम “जानते” हैं उसका ज़्यादातर हिस्सा लीक और अच्छी तरह से प्रमाणित विश्लेषण से आता है [5]। Anthropic सुरक्षा विधियों के बारे में बहुत कुछ प्रकाशित करता है पर सटीक मॉडल आकारों पर चुप रहता है। तो अगर आपने यह पूरी चीज़ एक सटीक, पुष्ट स्पेसिफिकेशन शीट की चाहत में पढ़ी, तो मुझे ईमानदार रहना होगा: उन इमारतों के बाहर किसी के पास वह नहीं है। हमारे पास जो है वह है लीक, हार्डवेयर घोषणाएँ, और लैब्स द्वारा हमें यह बताना कि वे इस समस्या पर कितना पैसा और सिलिकॉन झोंक रहे हैं — और वह भी आपके सिर को चकरा देने के लिए काफ़ी है।