संहिता जोशी

‘माहिती’ म्हणजे काय, याची व्याख्या विदाविज्ञानात निराळी. विदेतून आपल्या हेतूप्रमाणे केलेली निवड म्हणजे इथं ‘माहिती’. ती मिळवण्यासाठीचं एक साधन म्हणजे ‘निर्णयवृक्ष’!

या लेखात विदाविज्ञानातली (डेटा सायन्स) थोडी तांत्रिक माहिती बघू. गूगल, फेसबुकला आपण विदा (डेटा) पुरवतो. आपण जीमेलमध्ये काही लिहितो; गूगलमध्ये काही शोधाशोध करतो; फेसबुकवर काही स्टेटस किंवा प्रतिक्रिया लिहितो; ही सगळी विदा असते. त्यातून माहिती कशी मिळवता येते, माहिती म्हणजे काय, या संकल्पना (गणित वगळून) बघू.

प्रत्येक लेखाच्या खाली माझ्याबद्दल थोडी माहिती असते, नाव-शिक्षण-पेशा वगैरे. अशा माहितीमधून आपण नवख्या लोकांबद्दल काही अंदाज करतो. उदाहरणार्थ, संहिता हे स्त्रीचं नाव असेल; खगोलशास्त्र शिकलेली म्हणजे विज्ञानाची पाश्र्वभूमी असं काहीसं. विदावैज्ञानिकाऐवजी कुणी दुसरीतलं बारकं पोर ही मालिका लिहितंय, असं सांगितलं असतं तर हे लेखन फार गांभीर्यानं वाचलं गेलं नसतं. हा या माहितीचा एक उपयोग.

विदाविज्ञानाच्या गणितांमध्ये माहिती ही संकल्पना समीकरणांमध्येही वापरली जाते. ती कशी? समजा, एका खोक्यात तेरा ठोकळे आहेत. हे ठोकळे म्हणजे आपली विदा (डेटा). काही ठोकळे घन-चौकोनी आहेत; काही ठोकळे गोलाकार आहेत. काही ठोकळे निळे आहेत आणि काही पांढरे आहेत. या ठोकळ्यांचं वर्गीकरण करायचं आहे; ते अशा प्रकारे करायचं आहे की एका गटात एकाच प्रकारचे ठोकळे असतील. ही आदर्श परिस्थिती.

समजा, सगळ्या चौकोनी ठोकळ्यांचा रंग पांढराच असेल आणि सगळ्या गोल ठोकळ्यांचा रंग निळाच असेल, तर विदावैज्ञानिक आणि त्यांच्या गणितांचा काहीही उपयोग नाही! सगळे चौकोनी/पांढरे ठोकळे एकत्र आणि सगळे गोल/निळे ठोकळे एकत्र, अशा दोन गटांत वर्गीकरण करणं सोपं आहे. पण प्रत्यक्षात असं नसतं. काही चौकोनी ठोकळे पांढरे असतात, काही निळे; तेच गोलांचंही. आता आकडेमोड करावी लागते. समजा, सहा चौकोनी ठोकळ्यांपैकी पाच पांढरे आणि एक निळा आहेत. सात गोलांपैकी तीन निळे, चार पांढरे आहेत. आता वर्गीकरण कसं करणार?

सुरुवातीला पांढरे+चौकोनी एका गटात आणि बाकीचे दुसरीकडे अशी वर्गीकरणाची सुरुवात करणं सोपं असेल, हे आपल्याला सहज समजतं. जर संगणकाला हे शिकवायचं असेल त्यात वेगवेगळ्या प्रकारच्या वर्गीकरणातून किती माहिती (इन्फॉम्रेशन) मिळाली, याचं गणित शिकवावं लागतं. पांढरे+चौकोनी ठोकळ्यांची संख्या सगळ्यात जास्त आहे; सुरुवातीला ते वेगळे केले तर वेगवेगळ्या गटांबद्दल सगळ्यात जास्त ‘माहिती’ मिळेल; अशी ही गणिती संकल्पना आहे.

ही माहिती नक्की कशाबद्दल मिळाली, तर आपल्याकडे चार प्रकारचे ठोकळे आहेत; चौकोनी, गोल, पांढरे आणि निळे. यांतले कोणते ठोकळे कोणत्या प्रकारचे या वर्गीकरणात आपल्याला रस आहे; त्याबद्दल ही माहिती मिळाली. पण संगणक वर्गीकरण करतो तेव्हा एक तर पांढरे ठोकळे वेगळे करेल किंवा चौकोनी. म्हणजे आकार आणि रंग हे ठोकळ्यांचे दोन निरनिराळ्या प्रकारचे गुणधर्म आहेत. या दोनपैकी एका प्रकारचा गुणधर्म निवडून आधी सगळ्या वस्तूंचं त्यानुसार वर्गीकरण होतं. ज्या वर्गीकरणातून सगळ्यांत जास्त माहिती मिळेल, त्या गुणधर्मानुसार वस्तूंचं वर्गीकरण आधी होतं. ज्या वर्गीकरणातून सगळ्यात कमी माहिती मिळते, ते सगळ्यात शेवटी ढकललं जातं.

इथे माहिती मिळवायची तर किती गटांमध्ये वर्गीकरण करायचं आहे, ते गट कोणते, हे समजा आधीच माहीत आहे. समजा, पांढरा+चौकोन, पांढरा+गोल आणि निळे+गोल असे गट करायचे आहेत (सोबतची आकृती पाहा.). यात सगळ्या गटांत एकापेक्षा अधिक जिन्नस येतील. पण एकच निळा+चौकोन आहे. त्याचं वर्गीकरण रंगानुसार करायचं का आकारानुसार?

व्यवहारात असे प्रश्न नेहमीच येतात. सगळ्यात जास्त माहिती मिळवण्यासाठी संगणकाला सांगता येतं, ‘तीनाऐवजी चार गटांत वर्गीकरण कर’. सर्वसामान्यपणे तसं केलं जात नाही. असा एखादाच विदाबिंदू असेल तर त्यासाठी निराळा गट केला जात नाही; तो चुकून आलेला असू शकतो. असा गट करणं व्यवहार्य नसतं.

आपल्याला उपलब्ध विदेनुसार जे प्रारूप (मॉडेल) बनवलं जातं, त्यातून पुढे येणाऱ्या आणि ज्यांच्याबद्दल फार माहिती नाही अशा विदेचं वर्गीकरण योग्य प्रकारे करणं, हे विदाविज्ञानाचं, मशीन लर्निगचं उद्दिष्ट असतं. ही वर्गीकरणाची जी पद्धत सांगितली त्याला ‘डिसिजन ट्री’ म्हणतात, मराठीत त्याला निर्णयवृक्ष म्हणायचं का? कोणत्याही एका बिंदूपासून पुढे वर्गीकरण करायचं का नाही, असा द्वैत असणारा निर्णय घेतला जातो. वर्गीकरण करायचं ठरलं तर असलेला गट दोनांत विभागला जातो. झाडाला फांदी फुटते, एकाच्या दोन होतात, तशी ही रचना दिसते म्हणून हे नाव. विदाविज्ञानातलं हे एक मूलभूत अल्गोरिदम किंवा विचारपद्धती आहे. याची आणखी रूपं विकसित केली आहेत आणि ती मोठय़ा प्रमाणावर वापरली जातात.

या वृक्षपद्धतीचा मोठा फायदा म्हणजे त्यात वर्गीकरण कसं होणार हे निश्चितपणे ठरलेलं असतं. एकदा पुरेशी विदा वापरून हे वृक्ष उभारले की आणखी विदेमुळे त्यांची रचना बदलत नाही. शिवाय प्रत्येक फांदी कशी तयार केली जाते, विभागणीचा निर्णय का घेतला जातो, म्हणजे विदेतले कोणते गुणधर्म किती महत्त्वाचे आहेत, हे यातून मोजता येतं. जिथे वर्गीकरणाचं स्पष्टीकरण महत्त्वाचं असतं, तिथे हे वापरलं जातं.

गूगल, फेसबुक आपली विदा जमा करतात. आपण काय लिहितो, काय शोधतो, वगैरे. आपण लिहितो, ती विदा. त्यातून आपलं वर्गीकरण केलं जातं. वयोगट, आर्थिक स्तर, आवडीनिवडी, अशा अनेक गुणधर्मानुसार आपलं वर्गीकरण होतं. ही माहिती. हे वर्गीकरण जेवढं ‘आदर्श’ असेल तेवढं सोयीचं. आदर्श म्हणजे मूल्यव्यवस्था शोधू नका.

वर्तमानपत्रांत, टीव्हीवर सगळ्यांना एकसारख्या जाहिराती दिसतात. व्यक्तिश: मला किंवा जगातल्या अर्ध्या जनतेला दाढी नाही, तर दाढीच्या साबणाच्या जाहिराती दाखवून ते पैसे फुकट जातात. पण गोडाधोडाचं खायला बहुतेक लोकांना आवडतं; त्या जाहिराती सरसकट सगळ्यांना दाखवणं उपयुक्त असेल. याउलट, साडीला खिसा पाहिजे, अशी मागणी करणारे लोक अगदी मूठभर असणार. समजा गूगल, फेसबुकला हे शोधता आलं आणि अशा साडय़ा विकणारा उद्योग असेल तर दोन्ही बाजूंचा फायदाच होईल. पण तसं होणं कठीण असतं. कारण तेरा ठोकळ्यांपैकी एकाच ठोकळ्यासाठी नवा गट बनवला जात नाही; ते आर्थिकदृष्टय़ा फायद्याचं ठरत नाही. अल्पसंख्याकांच्या मागण्यांकडे दुर्लक्ष केलं तरी ‘चालतं’ किंवा अशा मागण्या पुरवणारे उद्योग दुनिया मुठीत घेण्याएवढे मोठे होऊ शकत नाहीत.

माहिती म्हणजे काय, ही व्याख्या आपल्याला काय शोधायचं आहे त्याप्रमाणे बदलत राहते. गणितात माहिती म्हणजे काय, याचं समीकरण तेच राहतं. संगणकासाठी लिहिलेली आज्ञावली बदलत नाही. आपल्या प्रश्नानुसार विदा बदलत राहते.

उदाहरणार्थ, प्लेन व्ह्य़ू प्रकल्प नावानं काही लोक अमेरिकी, आजी-माजी पोलिसांचं फेसबुकी लेखन गोळा करतात. त्यात वंश, धर्म, लिंग अशा कोणत्याही प्रकारचा भेदाभेद दिसतो का, याची छाननी करतात. फेसबुकी लेखन ही त्यांची विदा. तिचा वापर करून त्यातून पोलिसांबद्दल ते माहिती काढतात.

काही हेतू ठेवून कच्ची विदा जमा करून, त्यातून माहिती मिळवणं हे विदाविज्ञानाचं मुख्य काम. हे हेतू स्वच्छ आहेत का, हे विदावैज्ञानिक तपासतात का? स्वच्छ म्हणजे नक्की काय?

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com