‘व्हेक्टर डेटाबेस’ ही एआयमधली आणि त्यातही खास करून नवनिर्मितीक्षम एआय (म्हणजे ‘जनरेटिव्ह एआय’) मधली अत्यंत महत्त्वाची संकल्पना आहे. अलीकडच्या काळात ‘व्हेक्टर डेटाबेस’विषयीची माहिती असलेल्या लोकांची गरज मोठ्या प्रमाणावर भासते. साहजिकच या संदर्भातली कौशल्यं शिकणं खूप उपयोगी ठरणार आहे.

आपण यावेळी या तंत्रज्ञानाची तोंडओळख करून घेणार आहोत. यासाठी आपण मुळात ‘डेटाबेस’ या शब्दाचा विचार करू. डेटाबेस हा शब्द तसा खूप जुना आहे. गेली जवळपास पाच दशकं डेटाबेसची संकल्पना संगणक क्षेत्रात मोठ्या प्रमाणावर वापरली जाते. माहिती साठवण्यासाठी आणि हवी तेव्हा ती मिळवण्यासाठी डेटाबेसचं तंत्रज्ञान वापरलं जातं. उदाहरणार्थ जेव्हा बँकेचा खातेदार आपल्या खात्यात काही रक्कम भरतो तेव्हा त्यासाठीची माहिती डेटाबेसमध्ये साठवली जाते. तसंच जेव्हा खातेदार आपल्या खात्यात आता किती रक्कम शिल्लक आहे हे तपासतो तेव्हा याच डेटाबेसमधून ही माहिती मिळवली जाते.

अशा प्रकारचा डेटाबेस सर्वसामान्य प्रकारच्या कामांसाठी वापरणं शक्य असतं. एआयसाठी मात्र तो योग्य ठरत नाही. याचं कारण म्हणजे एआयमध्ये माहिती शोधण्यासाठी शब्दांमधला, वाक्यांमधला, मजकुरांमधला परस्परसंबंध शोधणं आणि त्याआधारे माहितीचे दुवे जोडून विचारलेल्या प्रश्नाला उत्तरं देणं गरजेचं असतं. अशा प्रकारे माहिती शोधण्याच्या संकल्पनेला अर्थपूर्ण किंवा शब्दार्थांशी संबंधित असलेला शोध म्हणजे ‘सिमँटिक सर्च’ असं म्हणतात. यासाठी नेहमीचा डेटाबेस तसा कुचकामी ठरत असल्यामुळे आपल्याला इथे व्हेक्टर डेटाबेस वापरावा लागतो.

उदाहरणार्थ समजा एका कंपनीला आपल्या ग्राहकसेवेसाठी चॅटबॉट तयार करायचा आहे. यासाठी ओपनएआय किंवा हगिंग फेस हे तंत्रज्ञान वापरून कंपनीला तिच्याकडच्या माहितीच्या साठ्यांचं ‘व्हेक्टर’मध्ये म्हणजे आकड्यांमध्ये रूपांतर करावं लागतं. हे आकडे माहितीच्या साठ्यांमधली समानता दाखवतात.

याचं एक सोपं उदाहरण म्हणजे समजा आपल्याकडे पाच डॉक्युमेंट्स आहेत आणि ती आपल्याला व्हेक्टर डेटाबेसमध्ये साठवायची आहेत. पहिल्या डॉक्युमेंटमध्ये ‘तुमचा मोबाइल फोन एकदम सुरुवातीच्या स्थितीमध्ये आणण्यासाठी १० सेकंद त्याचं मुख्य बटण दाबून धरा आणि त्यानंतर ते सोडा‘ असं म्हटलेलं आहे. चौथ्या डॉक्युमेंटमध्ये ‘जर तुमचा मोबाइल फोन पूर्वस्थितीत आला नाही तर सुमारे ३० सेकंद तो चार्ज करून त्याचं चार्जिंग बंद करा‘ असं म्हटलेलं आहे.

आता या दोन्ही गोष्टी व्हेक्टर डेटाबेसमध्ये साठवल्या जातात. नंतर समजा एखाद्या यूजरनं ‘मी माझा मोबाइल फोन एकदम सुरुवातीच्या स्थितीमध्ये कसा आणू?’ असं विचारलं तर काय होईल? व्हेक्टर डेटाबेसमध्ये या प्रश्नासाठीची माहिती शोधली जाईल आणि या प्रश्नाशी सगळ्यात जास्त मिळतंजुळतं डॉक्युमेंट म्हणून पहिलं डॉक्युमेंट सुचवलं जाईल. याचं कारण म्हणजे यूजरनं विचारलेल्या प्रश्नाशी सगळ्यात जास्त जुळणारं डॉक्युमेंट हे पहिलं डॉक्युमेंट आहे. चौथ्या डॉक्युमेंटमधली माहितीसुद्धा यूजरनं विचारलेल्या प्रश्नाशी काही प्रमाणात मिळतीजुळती असली तरी यूजरच्या प्रश्नाच्या अनुषंगानं ती तुलनेनं कमी प्रमाणात जुळणारी आहे. या सगळ्याचा विचार करून व्हेक्टर डेटाबेसमध्ये ही माहिती शोधल्यानंतर मिळालेलं उत्तर काहीसं असं असेल: ‘तुमचा मोबाइल फोन एकदम सुरुवातीच्या स्थितीत आणण्यासाठी त्याचं मुख्य बटण १० सेकंद दाबून धरा. याचा उपयोग न झाल्यास सुमारे ३० सेकंद तो चार्ज करून त्यानंतर त्याचं चार्जिंग बंद करा.’

म्हणजेच दोन्ही डॉक्युमेंट्सचा व्हेक्टर डेटाबेसनं विचार केलेला असेल. त्यांची तुलनात्मक उपयुक्तताही त्यानं विचारात घेतलेली असेल. व्हेक्टर डेटाबेस अशा प्रकारे सगळ्यात जास्त जुळणारे निकाल देतो आणि म्हणूनच एआयच्या संदर्भात त्याचं महत्त्व अनन्यसाधारण आहे. हे काम सर्वसाधारण प्रकारचे डेटाबेस करू शकणारच नाहीत; असं नाही. मात्र त्यासाठी आपल्याला खूप कष्ट घ्यावे लागतील. म्हणजेच आपल्याला खूप क्लिष्ट सॉफ्टवेअर त्यासाठी लिहावं लागेल. व्हेक्टर डेटाबेस मात्र माहितीच्या नेमक्या अर्थांमधल्या परस्परसंबंधांसाठीच तयार करण्यात आलेला असल्यामुळे तो हे काम आपोआपच करतो.

व्हेक्टर डेटाबेसचं तंत्रज्ञान अवगत असलेल्या लोकांना एआयमध्ये चांगली मागणी असते. अर्थात एआयमधल्या इतर अनेक कौशल्यांचीही संबंधित माणसाला चांगली ओळख असणं आवश्यक आहे. पाइनकोन, क्रोमा, विव्हिएट, मिल्व्हस अशी व्हेक्टरडेटाबेसची अनेक रुपं बाजारात उपलब्ध आहेत. पाइनकोन वगळता सगळे ओपन सोर्स म्हणजे वापरायला फुकट आहेत. त्यापैकी क्रोमाची लोकप्रियता सगळ्यात जास्त आहे.

This quiz is AI-generated and for edutainment purposes only.

akahate@gmail.com