सध्या AI मध्ये “लूप” म्हणजे काय असं तीन लोकांना विचारा आणि तुम्हाला तीन वेगवेगळी उत्तरं मिळतील. एक जण एजेंट लूप सांगेल. दुसरा मॉडेल कोलॅप्स आणि फीडबॅक लूप्सबद्दल बोलायला लागेल. तिसरा एखाद्या कम्प्लायन्स मीटिंगमधल्या ह्युमन-इन-द-लूपचा उल्लेख करेल. ते सगळेच बरोबर आहेत, आणि नेमकं याच कारणामुळे हा शब्द इतका गोंधळात टाकणारा झाला आहे.
मी ८ वर्षांहून अधिक काळ सॉफ्टवेअर लिहितोय, आणि भरपूर शब्दजंजाळ पुन्हा पुन्हा वापरला जाताना मी पाहिलं आहे. पण “लूप” हा खास आहे कारण तो एकच ट्रेंड नाही — त्या किमान चार वेगवेगळ्या कल्पना आहेत ज्यांना नेमका एकच शब्द लागू होतो, आणि त्या सगळ्या साधारण एकाच वेळी लोकप्रिय झाल्या. तर मग या सगळ्याचा गुंता सोडवूया.
इथे “लूप” म्हणजे नेमकं काय?
लूप, साध्या प्रोग्रामिंगच्या अर्थाने, म्हणजे एखादी अट पूर्ण होईपर्यंत पुन्हा पुन्हा घडणारी गोष्ट. while not done: do_something(). एवढंच. यात काही जादू नाही.
जे बदललं ते म्हणजे लूपच्या आत काय बसतं. दशकानुदशकं लूपचं शरीर हे तुम्ही हाताने लिहिलेला डिटरमिनिस्टिक कोड असायचं. आता लूपचं शरीर हे एक लार्ज लँग्वेज मॉडेल आहे जे स्वतःच ठरवतं की पुढे काय करायचं. हा एकच बदल — ठरलेल्या सूचनांकडून प्रत्येक फेरीला तर्क करणाऱ्या मॉडेलकडे — हीच पूर्ण कहाणी आहे. सध्या ट्रेंड होणारं सगळं काही यातूनच निघतं.
आज AI च्या संदर्भात लोक “लूप” म्हणतात, तेव्हा त्यांचा अर्थ साधारणपणे यापैकी एक असतो:
- एजेंटिक लूप — एखादं काम पूर्ण होईपर्यंत AI एजेंट तर्क करत, कृती करत, आणि निरीक्षण करत एका चक्रात फिरतो. हाच मोठा प्रकार आहे.
- ह्युमन-इन-द-लूप / ऑन-द-लूप — जिथे त्या चक्रात एक व्यक्ती बसून मंजुरी देते किंवा देखरेख करते.
- फीडबॅक लूप्स — AI चं आउटपुट पुन्हा AI च्या प्रशिक्षणात जातं, आणि कधीकधी त्यामुळे मॉडेल्सचा दर्जा खालावतो (मॉडेल कोलॅप्स).
- ट्रेनिंग लूप — RLHF आणि रिइन्फोर्समेंट लर्निंग, जिथे मॉडेल पुन्हा पुन्हा होणाऱ्या रिवॉर्ड चक्रांमधून सुधारतं.
हे सतत एकमेकांत मिसळले जातात. चला एक एक करून पाहूया, सगळ्या गाजावाजाला कारणीभूत असलेल्यापासून सुरुवात करूया.
एजेंटिक लूप: जो खरोखर ट्रेंड होतोय
मी पाहिलेली सगळ्यात स्वच्छ व्याख्या इथे आहे, आणि ती Anthropic कडून आली आहे: एजेंट म्हणजे फक्त “LLMs autonomously using tools in a loop.” [1] एवढंच. कुठलंही गूढ नाही. मार्केटिंग बाजूला काढलं तर AI एजेंट म्हणजे टूल्सच्या प्रवेशासह एका while लूपमध्ये अडकलेलं मॉडेल.
लूपमध्ये स्वतःमध्ये चार हालचाली असतात ज्या पुन्हा पुन्हा दिसतात: परसीव्ह, डिसाइड, अॅक्ट, ऑब्झर्व्ह (perceive, decide, act, observe). [2] मॉडेल त्याचा संदर्भ वाचतं, पुढची कृती निवडतं, ती कृती चालते, निकाल परत येतो, आणि लूप पुन्हा चालतो. काही लोक या पायऱ्यांना “थिंक, अॅक्ट, ऑब्झर्व्ह” म्हणतात, पण कल्पना तीच आहे.
मुख्य गोष्ट — आणि हीच गोष्ट एजेंटला सामान्य चॅटबॉटपासून वेगळी करते — ती म्हणजे एजेंट संपूर्ण समस्या एका झटक्यात सोडवायचा प्रयत्न करत नाही. तो एक छोटं पाऊल टाकतो, काय झालं ते पाहतो, आणि जुळवून घेतो. [1] चॅटबॉट एकदा उत्तर देतो आणि थांबतो. एजेंट पुढे चालत राहतो.
तुम्ही प्रत्यक्षात एखादा बग कसा दुरुस्त कराल याचा विचार करा. तुम्ही संपूर्ण कोडबेस वाचून स्मरणातून परिपूर्ण पॅच तयार करत नाही. तुम्ही एरर वाचता, एक फाईल तपासता, ती गोष्ट चालवता, नवीन एरर पाहता, दुसरी फाईल तपासता, पुन्हा चालवता. छोटी पावलं, सतत दुरुस्ती. एजेंटिक लूप म्हणजे फक्त तेच वर्तन, स्वयंचलित केलेलं.
लूप खरंतर कुठून आला
हा २०२६ चा शोध नाही. हा पॅटर्न प्रिन्स्टन आणि गूगल रिसर्चच्या २०२२ च्या एका पेपरपर्यंत मागे जातो ज्याचं नाव होतं “ReAct: Synergizing Reasoning and Acting in Language Models.” [3] कल्पना जवळजवळ लाजिरवाणी इतकी साधी होती: मॉडेलला एकतर तर्क (चेन-ऑफ-थॉट) किंवा कृती (टूल कॉल) करायला सांगण्याऐवजी, त्याला दोन्ही एकमेकांत गुंफू द्या. थोडं विचार करा, थोडी कृती करा, निकाल पाहा, पुन्हा विचार करा.
निकाल हाच पटवून देणारा भाग होता. जी मॉडेल्स तर्क करू शकत, कृती करू शकत, निरीक्षण करू शकत आणि पुन्हा तर्क करू शकत, ती लक्षणीयरीत्या चांगली कामगिरी करत — ReAct पेपर ने ALFWorld बेंचमार्कवर ३४% सुधारणा आणि WebShop वर साधारण १०% सुधारणा नोंदवली. [3] मॉडेलला बाह्य वातावरणाशी संवाद साधू दिल्याने हॅल्युसिनेशन्सही कमी झाले, कारण वास्तविकता त्याच्या गृहितकांना सतत मागे रेटत राहत होती. [4]
त्यामुळे ReAct लूप शांतपणे LLM एजेंट्ससाठीचं वस्तुस्थितीतलं मानक आर्किटेक्चर बनलं. [4] आज तुम्ही ऐकता ते बहुतांश एजेंट फ्रेमवर्क्स — ते सांगोत वा न सांगोत — त्याचाच कुठलातरी प्रकार चालवत असतात.
हे आता का फुटतंय आणि २०२२ मध्ये का नाही
हा खरोखर विचार करण्यासारखा प्रश्न आहे. पॅटर्न चार वर्षं जुना आहे. “एजेंटिक लूप” हा २०२६ चा बझवर्ड का आहे आणि २०२२ चा का नाही?
खरं सांगायचं तर, हे यासाठी आहे कारण लूप तेव्हाच काम करतो जेव्हा त्याच्या आतलं मॉडेल पुरेसं चांगलं असतं. काही गोष्टी एकत्र जुळून आल्या:
- मॉडेल्स अनेक पायऱ्यांवर विश्वास टाकण्याइतकी विश्वासार्ह झाली. लूप हा त्याच्या प्रत्येक फेरीइतकाच चांगला असतो. जर मॉडेलने पायरी ३ वर मूर्खासारखा निर्णय घेतला, तर एरर पायरी ४, ५, ६ मधून वाढत जातो. सुरुवातीची मॉडेल्स वाईटरीत्या भरकटत असत. नवीन मॉडेल्स योजना पुरेशी टिकवून ठेवतात की ती उपयुक्त ठरते.
- टूल वापर मानकीकृत झाला. Anthropic च्या Model Context Protocol (MCP) ने प्रत्येकाने स्वतः ग्लू कोड लिहिण्याऐवजी एजेंट्सना बाह्य टूल्सशी जोडण्याचा एक समान मार्ग दिला. [1] अचानक “अॅक्ट” पायरीमागे एक खराखुरा इकोसिस्टम उभा राहिला.
- कॉन्टेक्स्ट विंडोज वाढल्या. लूप इतिहास साठवत जातो — प्रत्येक विचार, कृती, आणि निरीक्षण पुढे नेलं जातं. त्यासाठी जागा लागते. मोठ्या कॉन्टेक्स्ट विंडोजमुळे लांब लूप्स शक्य झाले, आणि “कॉन्टेक्स्ट इंजिनिअरिंग” ही स्वतःची एक शाखा बनली. [5]
- पैसा आला. हे आकर्षक नसलेलं कारण आहे. Gartner ने Q1 2024 ते Q2 2025 दरम्यान मल्टी-एजेंट सिस्टम चौकशींमध्ये १,४४५% ची प्रचंड वाढ नोंदवली. [6] एजेंटिक AI मार्केट २०२५ मधील $7.6 अब्जावरून २०२६ मध्ये $10.8 अब्जापर्यंत वाढण्याचा अंदाज आहे. [6] जेव्हा आकडे असे हलतात, तेव्हा प्रत्येक ब्लॉग (बहुधा हाही धरून) लूप्सबद्दल लिहायला लागतो.
इथे एक रचनात्मक बदलही आहे. २०२६ च्या Gartner CIO सर्वेक्षणानुसार, फक्त साधारण १७% संस्थांनी प्रत्यक्षात AI एजेंट्स तैनात केले आहेत, पण ६०% पेक्षा जास्त संस्था दोन वर्षांत ते करण्याची अपेक्षा करतात — ते मागोवा घेत असलेल्या उदयोन्मुख तंत्रज्ञानांमधला सगळ्यात आक्रमक अवलंब वक्र. [6] त्यामुळे बराचसा गोंगाट हा तैनातीचा नसून अपेक्षेचा आहे. गाजावाजावर विश्वास ठेवण्यापूर्वी हे लक्षात ठेवणं उपयुक्त ठरेल.
एकटे एजेंट्स विरुद्ध एजेंट्सच्या टीम्स
समजून घेण्यासारखी आणखी एक बारकावा. सुरुवातीचं चित्र म्हणजे एक सर्वसमावेशक एजेंट तुमच्या कामावर लूप करत होता. आताची दिशा म्हणजे विशेष एजेंट्सच्या समन्वित टीम्स — एक रिसर्चर एजेंट, एक कोडर एजेंट, एक रिव्ह्यूअर एजेंट — प्रत्येक स्वतःचा लूप चालवतो, आणि एका ऑर्केस्ट्रेटरकडून समन्वित होतो. [6]
Gartner ने पाहिलेली ती १,४४५% ची उडी? ती विशेषतः मल्टी-एजेंट सिस्टम्सबद्दल होती. [6] विचार असा आहे की एक प्रचंड एजेंट सगळं काही करायचा प्रयत्न करत असेल तर लांब कामांवर तो धागा हरवतो, तर अरुंद कामं असलेले छोटे एजेंट्स लक्ष केंद्रित ठेवतात. इथे मी जरा साशंक आहे — अनेक नॉन-डिटरमिनिस्टिक लूप्सचा समन्वय साधणं हे एका डीबगिंग दुःस्वप्नासारखं वाटतं, आणि मला वाटतं बऱ्याच टीम्स हे कठीण मार्गाने शिकतील. पण क्षेत्र त्याच दिशेने पैज लावत आहे.
Anthropic चा स्वतःचा सल्ला अति-इंजिनिअरिंगच्या प्रवृत्तीविरुद्ध जातो, हे लक्षात घेण्यासारखं आहे. एजेंट्स बनवण्यासाठीची त्यांची तीन तत्त्वं अशी आहेत: डिझाइन साधी ठेवा, एजेंटच्या नियोजन पायऱ्या पारदर्शक बनवा, आणि चांगल्या टूल डॉक्युमेंटेशनमध्ये गुंतवणूक करा. [1] ते स्पष्टपणे सुचवतात की एखाद्या जड फ्रेमवर्ककडे वळण्याआधी थेट LLM API कॉल्सपासून सुरुवात करा — अनेक पॅटर्न्स फक्त काही ओळींचा कोड असतात. [1] चांगला सल्ला जो बहुतेक लोक दुर्लक्षित करतात.
ह्युमन-इन-द-लूप विरुद्ध ह्युमन-ऑन-द-लूप
आता तो लूप ज्याचा स्वायत्ततेशी काहीच संबंध नाही आणि सगळं काही नियंत्रणाशी आहे. एकदा का तुमच्याकडे स्वतःहून कृती करणारा एजेंट आला, की उघड प्रश्न असा: माणूस कुठे बसतो?
दोन उत्तरं, आणि हा फरक त्याच्या गोंडस नावांपेक्षा कितीतरी जास्त महत्त्वाचा आहे. [7]
| ह्युमन-इन-द-लूप (HITL) | ह्युमन-ऑन-द-लूप (HOTL) | |
|---|---|---|
| माणसाची भूमिका | निर्णायक पायऱ्यांवर मंजुरी देतो किंवा हस्तक्षेप करतो | डॅशबोर्डवर देखरेख करतो, फ्लॅग केलेल्या प्रकरणांचा आढावा घेतो |
| निर्णय नियंत्रण | अंतिम निर्णय माणसाकडेच राहतात | एजेंट अंमलात आणतो; माणूस देखरेख करतो |
| उदाहरण | AI ईमेल ड्राफ्ट करतो, तुम्ही Send क्लिक करता | एजेंट ईमेल पाठवतो; फक्त विसंगतींवर अलर्ट येतात |
| कशासाठी अनुकूल | नियंत्रण, जोखीम कमी करणं | वेग, स्केल |
| कशासाठी उत्तम | उच्च-जोखीम, कायदेशीर, नैतिक निर्णय | धोरणाच्या मर्यादेत असलेलं मोठ्या प्रमाणातलं काम |
ह्युमन-इन-द-लूप म्हणजे एक व्यक्ती चक्राच्या आत बसते आणि मंजुरीशिवाय एजेंट अंतिम कृती करू शकत नाही. [7] AI ड्राफ्ट करतो, तुम्ही मंजुरी देता. हळू, सुरक्षित, स्केल चांगलं होत नाही.
ह्युमन-ऑन-द-लूप माणसाला प्रत्येक पायरीतून बाहेर काढतं आणि देखरेखीच्या जागी बसवतं. [7] एजेंट चालतो, डॅशबोर्ड त्याचा मागोवा घेतो, आणि काहीतरी विचित्र दिसलं तरच अलर्ट येतात — असामान्य डेटा अॅक्सेस, विचित्र API कॉल्स, गुणवत्तेच्या बेसलाइनशी न जुळणारं आउटपुट. माणूस फ्लॅग केलेल्यांचा आढावा घेतो आणि किल स्विच दाबू शकतो. [7]
“ऑन-द-लूप” कडे होणारी ही वाटचाल हे एजेंटिक AI अचानक मोठ्या प्रमाणावर उपयुक्त का झालं याचं मोठं कारण आहे. जर माणसाला प्रत्येक कृतीला मंजुरी द्यावी लागत असेल, तर तुम्ही खरंतर काहीच स्वयंचलित केलेलं नाही — तुम्ही फक्त एक रांग जोडली आहे. संपूर्ण उत्पादकतेचा युक्तिवाद देखरेखीकडे मागे सरकण्यावर अवलंबून आहे. [7] पण — आणि हाच अस्वस्थ करणारा भाग आहे — नेमकं तेव्हाच गोष्टी कुणाच्याही लक्षात येण्याइतक्या वेगाने न येता बिघडू शकतात. आणि त्यामुळे मला कुणाला नको असलेल्या लूप्सकडे यावं लागतं.
लूप्स चुकतात तेव्हा: टोकन स्पायरल्स आणि बेलगाम एजेंट्स
इथे गोष्ट गुंतागुंतीची होते, आणि इथेच मला वाटतं गाजावाजा भयावह भाग वगळून पुढे जातो.
कधी थांबायचं हे न कळणारा लूप हा प्रोग्रामिंगमधला सगळ्यात जुना बग आहे. आपण सगळ्यांनी एक अनंत लूप लिहून आपलं मशीन गोठवलं आहे. २०२६ ची आवृत्ती अधिक वाईट आहे, कारण लूपला एक क्रेडिट कार्ड जोडलेलं आहे.
एजेंट लूपमधली प्रत्येक पायरी संपूर्ण साठवलेला संदर्भ मॉडेलकडे परत पाठवते. [8] पायरी २० पर्यंत तुम्ही तोच सिस्टम प्रॉम्प्ट आणि संभाषणाचा इतिहास वीस वेळा भरत असता. लोक याला “टोकन स्पायरल” म्हणत आहेत — आधुनिक अनंत लूप, पण तुमच्या बँक खात्याशी थेट जोडणी असलेला. [8]
फिरत असलेले आकडे खरोखर चिंताजनक आहेत. एका नोंदलेल्या प्रकरणात बेलगाम एजेंटने चार तासांत $2,847 जाळले, आणि दुसऱ्या प्रकरणात कुणाच्या लक्षात येण्याआधी एका सेशनमध्ये $12,000 पर्यंत पोहोचला. [8] त्या सगळ्या पुनरावृत्त संदर्भामुळे एजेंट्स त्याच संभाषणासाठी साध्या चॅटपेक्षा ५०पट जास्त टोकन्स जाळतात असं म्हटलं जातं. [9] एका साध्या ५-पायरी लूपवर खर्च एका झटक्यातल्या कॉलच्या साधारण ३.२पट होतो; ५० पायऱ्यांवर हा गुणक ३०पट पार करतो; २०० पायऱ्यांवर तो १००पट पेक्षा जास्त असतो. [8]
त्यामुळे जर तुम्ही लूप करणारं काहीही बनवत असाल, तर गार्डरेल्स ऐच्छिक नाहीत:
- एक कठोर
max_iterationsमर्यादा. पाच किंवा दहा. लूपला कधीही अमर्याद चालू देऊ नका. [8] हा एकच नियम बहुतांश आपत्ती टाळतो. - प्रति-रन टोकन बजेट जे ओलांडलं की रन बंद करतं. [8]
- पुनरावृत्ती शोध — प्रत्येक टूल कॉलचा फिंगरप्रिंट काढा आणि एका सरकत्या विंडोशी त्याची तुलना करा, जेणेकरून एजेंट एकच गोष्ट पुन्हा पुन्हा करत असेल तर तुम्हाला कळेल. [8]
- एक पायरी-संख्या अलर्ट जो एखादा एकच रन समजा १५ पायऱ्या ओलांडला तर तुम्हाला सूचित करतो. [8]
मला हे थोडं गमतीशीर वाटतं की आपण वर्षानुवर्षं स्वतःला थांबणारे लूप्स लिहायला शिकवलं, तर्क करू शकणारे एजेंट्स शोधले, आणि लगेच अनंत लूप पुन्हा आणला — फक्त आता तो टर्मिनल हँग करण्याऐवजी खऱ्या पैशाचा खर्च करतो. प्रगती.
फीडबॅक लूप्स आणि मॉडेल-कोलॅप्सची समस्या
पूर्णपणे वेगळा लूप, तितकाच महत्त्वाचा, आणि जो मला सगळ्यात आकर्षक वाटतो कारण तो संथ आणि अदृश्य आहे.
हा एका एजेंटच्या चालण्याबद्दल नाही. हा संपूर्ण AI इकोसिस्टम स्वतःवरच पोसण्याबद्दल आहे. मॉडेल्स वेबवरून गोळा केलेल्या डेटावर प्रशिक्षित होतात. त्या वेबचा अधिकाधिक भाग आता AI ने लिहिलेला आहे. त्यामुळे मॉडेल्सची पुढची पिढी अंशतः मागच्या पिढीच्या आउटपुटवर प्रशिक्षित होते. हा एक फीडबॅक लूप आहे, आणि तो मॉडेल्सना सडवू शकतो.
या घटनेला मॉडेल कोलॅप्स म्हणतात — जेव्हा AI-निर्मित डेटावर प्रशिक्षित मॉडेल्स हळूहळू गुणवत्ता आणि विविधता गमावतात, आणि जे वास्तविक-जगातलं वितरण त्यांनी शिकायचं होतं त्यापासून भरकटतात. [10] हे २०२३ च्या ऑक्सफर्ड आणि केंब्रिजच्या Nature मध्ये प्रकाशित झालेल्या अभ्यासात औपचारिकरीत्या वर्णन केलं गेलं, ज्याचं शीर्षक होतं “AI models collapse when trained on recursively generated data.” [11] लागोपाठच्या प्रशिक्षण चक्रांमध्ये, मॉडेल स्वतःच्या चुका, पूर्वग्रह, आणि अति-सुलभीकरणं अधिक दृढ करतं, आणि हळूहळू सत्यावरची त्याची पकड गमावतं. [10]
वेळ हाच चिंताजनक भाग आहे. अंदाजांनुसार २०२६ पर्यंत ऑनलाइन प्रकाशित होणाऱ्या नवीन मजकुराचा एक लक्षणीय भाग AI-निर्मित असेल. [12] २०२४ ते २०२६ दरम्यानच्या वेब डेटावर प्रशिक्षित मॉडेल्स, कुणाचा हेतू असो वा नसो, GPT-4, Claude, Gemini, आणि इतरांच्या आउटपुटवर प्रशिक्षित होत आहेत — जे स्वतः आधीच्या मानवी वेब डेटावर प्रशिक्षित झाले होते. [12] हे एका फोटोकॉपीची फोटोकॉपी, त्याची फोटोकॉपी आहे. प्रत्येक फेरीला थोडी अचूकता गमावली जाते.
कमी-धोक्याच्या परिस्थितीत याचा अर्थ फक्त बेचव, अधिक सर्वसामान्य आउटपुट. आरोग्यसेवा, वित्त, किंवा सुरक्षेत याचा अर्थ खालावलेली मॉडेल्स खरोखर धोकादायक निर्णय घेणं असू शकतं — चुकीचं निदान, वाईट जोखीम स्कोअर, चुकलेली विसंगती. [12] याच कारणामुळे “ह्युमन-व्हॅलिडेटेड डेटा” आणि प्रोव्हनन्स ट्रॅकिंग शांतपणे पुन्हा मूल्यवान बनले आहेत. खरा माणसाने लिहिलेला मजकूर, उपरोधिकपणे, एक दुर्मिळ संसाधन बनत आहे.
मूळ लूप: मॉडेल्स आधी शिकतात कशी
मी हा भाग थोडक्यात ठेवीन कारण तो सध्याच्या गाजावाजाच्या आधीचा आहे, पण याचा उल्लेख करण्यासारखा आहे कारण तो सुद्धा एक लूप आहे आणि लोक त्याची बाकीच्यांशी गल्लत करतात.
मॉडेल एजेंट लूपमध्ये बसण्याआधी, ते एका ट्रेनिंग लूपने घडवलं जातं. प्रसिद्ध तो म्हणजे RLHF — Reinforcement Learning from Human Feedback, हे तंत्र ज्याने ChatGPT सारख्या मॉडेल्सशी बोलणं खरोखर आल्हाददायक बनवलं. [13]
लूप असा काम करतो: एक रिवॉर्ड मॉडेल (मूलतः मानवी पसंतींवर प्रशिक्षित एक AI न्यायाधीश) मुख्य मॉडेलच्या प्रतिसादांना गुण देतो, आणि तो गुण एक रिवॉर्ड सिग्नल बनतो जो मॉडेलला माणसांना आवडणाऱ्या आउटपुटकडे ढकलतो. [13] तयार करा, मूल्यमापन करा, अनुकूलित करा, पुन्हा करा. मॉडेल अक्षरशः स्वतःच्याच प्रयत्नांवर लूप करत आणि गुण मिळवत शिकतं. [13]
म्हणजे तुमच्याकडे तळापर्यंत लूप्सच आहेत — एक ट्रेनिंग लूप जो मॉडेल घडवतो, आणि मग एक एजेंट लूप जिथे ते घडवलेलं मॉडेल कामाला जातं. एकच शब्द, अगदी वेगवेगळे कालमान: एक डेटा सेंटरमध्ये आठवड्यांभर घडतो, दुसरा तुमच्या कामावर सेकंदांत.
कुणी कोणता लूप म्हणतोय हे ओळखणं
या सगळ्यातून तुम्ही एक गोष्ट घेणार असाल, तर ती ही असू द्या की AI मधला “लूप” हा एक ओव्हरलोडेड शब्द आहे, आणि बोलणारा जवळजवळ कधीच कोणता ते सांगत नाही. माझी झटपट चीट शीट इथे आहे:
| लूप | काय पुनरावृत्त होतं | कालमान | का ट्रेंड होतोय |
|---|---|---|---|
| एजेंटिक लूप | तर्क → कृती → निरीक्षण | सेकंद ते मिनिटं | मॉडेल्स अखेर पायऱ्यांवर विश्वास टाकण्याइतकी चांगली |
| ह्युमन-इन/ऑन-द-लूप | मानवी मंजुरी किंवा देखरेख | प्रति कृती / सततची | एजेंट्स मोठ्या प्रमाणावर सुरक्षितपणे तैनात करण्यासाठी आवश्यक |
| फीडबॅक लूप | AI आउटपुट → AI प्रशिक्षण डेटा | महिने ते वर्षं | वेब AI मजकुराने भरतोय; मॉडेल कोलॅप्सचा धोका |
| ट्रेनिंग लूप (RLHF) | तयार करा → रिवॉर्ड → अनुकूलित करा | आठवडे | वरील सगळं वापरण्यायोग्य बनवणारा पाया |
पुढच्या वेळी कुणी मीटिंगमध्ये “लूप” टाकेल, तेव्हा खरा प्रश्न तोच आहे: कोणता? ते संबंधित आहेत — ते सगळे मध्यभागी मॉडेल असलेल्या पुनरावृत्त होणाऱ्या गोष्टीचं वर्णन करतात — पण इंजिनिअरिंग, धोके, आणि उपाय पूर्णपणे वेगळे आहेत.
एजेंटिक लूप हाच गाजावाजा वाहून नेणारा आहे, आणि तो खरोखर एक मोठी गोष्ट आहे. पण तो फक्त त्याखालच्या ट्रेनिंग लूपमुळेच काम करतो, तो फक्त एखादा माणूस ऑन-द-लूप पाहत असतानाच सुरक्षितपणे तैनात होतो, आणि संपूर्ण इकोसिस्टम कुणीही नियंत्रित न करत असलेल्या फीडबॅक लूपमुळे शांतपणे सडण्याचा धोका पत्करते. चार लूप्स, एक शब्द, सगळे एकमेकांत गुंतलेले. गोंधळ होणं साहजिकच आहे.
समाप्त
स्रोत
- Building effective agents — Anthropic
- The Agent Loop, Explained: Perceive, Decide, Act, Observe
- ReAct: Synergizing Reasoning and Acting in Language Models (PDF)
- What is a ReAct Agent? — IBM
- Effective context engineering for AI agents — Anthropic
- 7 Agentic AI Trends to Watch in 2026 — MachineLearningMastery
- Human-in-the-Loop vs Human-on-the-Loop in Agentic AI — TekLeaders
- Preventing Runaway AI Agent Costs and Token Spirals — n1n.ai
- AI Agents Burn 50x More Tokens Than Chats — LeanOps
- What Is Model Collapse? — IBM
- AI models collapse when trained on recursively generated data — Nature
- The AI feedback loop: Researchers warn of ‘model collapse’ — VentureBeat
- Reinforcement Learning from Human Feedback (RLHF) for LLMs — SuperAnnotate