मागच्या आठवड्यात कुणीतरी मला हाच प्रश्न विचारला, आणि तो चांगला प्रश्न आहे कारण दोन्ही रचना डोळे बारीक करून पाहिल्या तर सारख्याच दिसतात. काही मशीन्स, मधे थोडं शेअर्ड स्टोरेज, आणि नोड्सवर पसरलेलं काम. मग एकाला “बिग डेटा” आणि दुसऱ्याला “मायक्रोसर्व्हिसेस” का म्हणतात? हे एकाच क्लस्टरसाठी दोन शब्द आहेत का? खरं सांगायचं तर, नाही. ते एकाच गोष्टीबद्दलच्या अगदी विरुद्ध गृहीतकांवर उभे आहेत: डेटा कुठे राहतो आणि कोण कुणाकडे जातो.
आधी Hadoop प्रत्यक्षात काय आहे ते उलगडून सांगतो, मग आपण दोन्ही गोष्टी शेजारी-शेजारी ठेवू.
तुम्ही /api/orders/1042 सारखा API endpoint उघड करता. तो integer कोणालाही ऐकणाऱ्याला — एखाद्या प्रतिस्पर्ध्याला, आक्रमणकर्त्याला, उत्सुक वापरकर्त्याला — तुमच्याकडे किती orders आहेत ते सांगतो. संख्या 1041 केली, तर तुम्हाला मागील order मिळतो. ती 1 केली, तर तुम्हाला पहिली order मिळते. कोणत्याही auth bypass ची गरज नाही. ID स्वतःच माहितीची गळती आहे.
हा एका परिच्छेदात sequential ID चा प्रश्न आहे. UUID त्याचे निराकरण करण्यासाठी अस्तित्वात आहे — आणि मोठ्या प्रमाणावर महत्त्वाच्या इतर काही गोष्टींसाठी.
Kafka बाहेरून अगदी सरळ-साधा वाटतो — तुम्ही एखाद्या टॉपिकवर प्रकाशित करता, कुणीतरी वाचतो. आतून हे एक बऱ्यापैकी गुंतागुंतीचे वितरित प्रणाली आहे जिथे एकही बाइट वितरित होण्यापूर्वी अनेक भागांनी कोणाचे काय आहे यावर सहमती व्हायला हवी. मी यात बराच वेळ घालवला आणि बहुतेक लेख “विभाजनांमुळे समांतरता मिळते” इथेच थांबतात, वास्तविक हँडशेक समजावून सांगत नाहीत. मला अधिक खोलात जाऊ द्या.
Kafka क्लस्टर म्हणजे नक्की काय Kafka क्लस्टर म्हणजे ब्रोकर्सचा एक समूह — साधे JVM प्रक्रिया, प्रत्येक स्वतःच्या मशीनवर (किंवा कंटेनरमध्ये) चालत असतात. प्रत्येक ब्रोकर डेटाचा एक भाग साठवतो आणि क्लस्टरच्या उर्वरित भागाबद्दल जाणतो [1].