|| संहिता जोशी

मशीन लर्निंगची अनेक प्रारूपं असू शकतात. पण विदेपासून माहिती मिळवायची आणि त्या माहितीचा वापर काहीएक हेतूसाठी करायचा, तर कोणतं प्रारूप वापरावं? वरवर पाहता सारखे भासणाऱ्यांचं वेगळेपण नेमकं ओळखण्यासाठी  ‘गुणधर्मा’ची चाळणी लावणं, ‘पॅटर्न’ जाणून घेणं असे मार्ग आहेत..

मशीन लìनगमधल्या ‘निर्णयवृक्ष’ (डिसिजन ट्री) या एका प्रारूपाची (मॉडेल) प्राथमिक माहिती आपण मागच्या लेखात बघितली. मशीन लìनगमध्ये वेगवेगळी प्रारूपं असतात. म्हणजे, एकच विदासंच (डेटा सेट) असेल, तर त्यावर निरनिराळ्या प्रकारची प्रारूपं चालवून एकाच प्रकारचा निकाल मिळवता येतो. निकाल म्हणजे नक्की काय?  ते आपला प्रश्न आणि विदेवर (डेटा) अवलंबून असतं.

जालावर उपलब्ध असलेल्या आयरिस विदासंचाचं उदाहरण बघू. आयरिस ही फुलं असतात. (सोबत व्हॅन गॉ या डच चित्रकारानं काढलेल्या आयरिसचं चित्र आहे.) या फुलांच्या निरनिराळ्या उपजाती किंवा प्रजाती असतात. त्यांतल्या तीन प्रजातींच्या फुलांची मोजमापं ‘आयरिस डेटा सेट’ म्हणून उपलब्ध आहेत. फुलांच्या पाकळ्या आणि पाकळ्यांखालचा हिरवा देठाकडचा भाग यांची लांबी, रुंदी ही मोजमापं, ही या विदासंचातली विदा. त्या सगळ्या मोजमापांसोबत एक ‘लेबल’ही उपलब्ध आहे. मोजमाप कोणत्या जातीच्या आयरिस फुलाचं आहे, हे ते लेबल.

आता एखादं नवं आयरिसचं फूल आहे, आणि त्याची अशीच मोजमापं घेऊन आपल्याला समजलं पाहिजे की या फुलाची उपजात कोणती? (त्यावरही मर्यादा आहेत. आयरिसच्या एकंदरीत तीनशेहून अधिक प्रजाती आहेत. त्यांपकी तीन प्रजातींची माहितीच या विदासंचात आहे. त्यापलीकडे एखाद्या प्रजातीचं फूल आलं तर त्याबद्दल या विदासंचातून निष्कर्ष काढता येणार नाही.)

विदाविज्ञानाचं काम काय – आपला प्रश्न काय, यानुसार विदा गोळा करणं. मिळालेल्या विदेतून वर्गीकरण करण्याचं प्रारूप बनवणं. नवीन विदा आल्यावर तिचं वर्गीकरण काय हे आधीच्या प्रारूपातून समजतं. मागच्या लेखात ज्या निर्णयवृक्षाचा उल्लेख झाला, त्यात एका प्रकारचं गणित वापरून विदेचं वर्गीकरण केलं जातं. अशी वेगवेगळ्या प्रकारची गणितं वापरली जातात. त्यांतलं (कृत्रिम) न्यूरल नेटवर्कचं नाव अनेकांना माहीत असतं; त्याला जरा ग्लॅमरही आहे. म्हणून ते सगळीकडे उपयुक्त असतं असं नाही.

यांतली गणितं काय असतात, ती कधी-कशी वापरावी लागतात हे सगळे तपशील या लेखमालेच्या कक्षेबाहेरचे, म्हणून सोडून देऊ. मात्र ते वापरतात कसं, त्यात चुका कशा होतात हे समजणं गरजेचं आहे. त्यातून ‘विदाविज्ञान’ या तंत्रज्ञानाचा आपल्यावर कसा परिणाम होतो, हे समजणं सोपं होईल.

आयरिस विदासंचाचंच उदाहरण घेऊ. त्यातून एकाच प्रजातीच्या फुलांचे गुणधर्म कसे आहेत, याचं प्रारूप (मॉडेल) गणितं वापरून तयार केलं जातं. हे प्रारूप म्हणजे सर्वसामान्यपणे पॅटर्न म्हणता येईल. तसा पॅटर्न पुन्हा दिसला की नव्या फुलाची प्रजाती कोणती हे सहज समजतं. असं आपण थोडं मनातही करतोच. मोठय़ा मदानात खेळणाऱ्यांमध्ये लहान मूल शोधायचं असेल तर आपण लोकांच्या खांद्यांवरून पलीकडे बघत नाही; कारण लहान मुलांची उंची मोठय़ा माणसांपेक्षा कमी असते, हा पॅटर्न आपण आधीच ओळखलेला असतो.

फुलांच्या मोजमापांत पाकळ्यांची रुंदी हा गुणधर्म असतो; मदानात मूल शोधताना वय हा गुणधर्म वापरला जातो. आपापल्या प्रश्नांनुसार कोणते गुणधर्म महत्त्वाचे हे ठरतं. उद्या पाऊस पडेल का, याचं प्रारूप बनवण्यासाठी हवामानशास्त्रज्ञाचं वय किती हा गुणधर्म महत्त्वाचा नाही. पण तीच शास्त्रज्ञ फेसबुकवर असेल तेव्हा तिला जाहिरात दाखवण्यासाठी तिचं वय किती, हा गुणधर्म महत्त्वाचा असेल.

ते का? तरुण लोकांच्या गरजा, इच्छा-आकांक्षा निराळ्या असतात. कॉलेजच्या मुलामुलींना चेहऱ्यावर सुरकुत्या किंवा डोक्यावर टक्कल पडण्याची पर्वा नसते. मध्यमवयीन लोकांना याचं भय वाटतं (आणि बहुतेक वृद्ध लोकांनी सुरकुत्या आणि टक्कल या गोष्टी मान्य केलेल्या असतात.) कॉलेजवयीन लोकांना नोकरीविषयक जाहिराती, नवीन कोर्स करून करिअर कसं करायचं याच्या जाहिराती महत्त्वाच्या वाटतील. टीव्ही, छापील वर्तमानपत्रांत जाहिराती दाखवताना सगळ्यांना एकसारख्या जाहिराती दिसतात. त्यात व्यक्तीनुसार जाहिराती बदलता येत नाहीत. पण जीमेल, फेसबुकवर वेगवेगळ्या लोकांना वेगवेगळ्या जाहिराती दिसतात. अशा वेळेस, ज्यांना एखाद्या वस्तूची गरजच नाही अशा वस्तू किंवा सेवेची जाहिरात दाखवली तर जाहिरात दाखवण्याचा पसा फुकट जातो.

पण लोकांना सरळसरळ ‘तुम्ही किती वर्षांचे आहात’ असं विचारता येत नाही. विचारलं तरी लोक खरं उत्तर देतीलच असं नाही. अनेक लोक उत्तर देणं टाळता येत असेल तर टाळतीलच. मग लोकांचे ‘गुणधर्म’ वापरले जातात. उदाहरणार्थ, तरुण लोकांची भाषा इतरांच्या भाषेपेक्षा निराळी असते; त्यांच्या चर्चाचे विषय, आवडते सिनेमे, आपसांत होणाऱ्या गप्पा निराळ्या असतात. फेसबुक किंवा गूगलला आपल्याबद्दल ही विदा सहज मिळवता येते. विदेतून वयाबद्दल माहिती मिळवण्यासाठी काय करावं लागेल?

सुरुवातीला, अर्थातच फेसबुक किंवा गूगलसारखी जगड्व्याळ यंत्रणा बनवावी लागेल. ती त्यांच्याकडे आता आहे. ती यंत्रणा पुरेशी लोकप्रिय आहे; म्हणजे बऱ्याच लोकांकडून त्यांना विदा मिळते. याचं महत्त्व असं की, दोन-चार, किंवा पाच-पन्नास लोकांबद्दल माहिती काढण्यासाठी व्यक्तिगत स्वरूपाचं सर्वेक्षणही पुरेल. पण कोटय़वधी लोकांना जाहिराती दाखवण्यासाठी, त्या जाहिराती अस्थानी नसण्यासाठी आणि त्यातून नफा कमावण्यासाठी विदाविज्ञानाला पर्याय नाही.

मग निदान काही लोकांचे वयोगट आधीच माहीत असावे लागतील. त्यासाठी सर्वेक्षणाचा पर्यायही वापरता येईल. एकदा अगदी मर्यादित, हजार लोकांचीही चार निरनिराळ्या वयोगटांत विभागणी केली की त्यांच्यासारखे वागणारे इतर लोक कोण हे शोधण्याचं काम मशीन लìनगचं. यात लोकांच्या लकबी गुणधर्म म्हणून वापरले जातात – कोणते शब्द वारंवार वापरले जातात, कोणत्या सिनेमांबद्दल गप्पा होतात, शुक्रवारी संध्याकाळी रोमँटिक कॉमेडीबद्दल बोलतात का लहान मुलांच्या कार्यक्रमांबद्दल, अशा प्रकारचे गुंतागुंतीचे गुणधर्मसुद्धा वापरले जातात. एरवी लहान मुलांच्या सिनेमांबद्दल बरेच लोक बोलत असतील; पण दुसऱ्या दिवशी सुट्टी असताना तरुण लोक आपल्याला काय हवं तेच करतील आणि लहान मुलांचे आई-वडील किंवा आजी-आजोबा त्या मुलांना काय हवं त्याबद्दल बोलतील. यात दोन गुणधर्म वापरले गेले; आठवडय़ाचा वार कोणता आणि बोलण्याचे विषय काय आहेत.

थोडय़ा लोकांबद्दल खात्रीशीर माहिती मिळाली की इतर बऱ्याच लोकांबद्दल माहिती मिळवण्यासाठी विदाविज्ञानातलं मशीन लìनग वापरलं जातं. मशीन लìनगचा गाभाच हा की उपलब्ध विदेतले पॅटर्न गणित वापरून शोधायचे आणि प्रारूप तयार करायचं. ते वापरून ज्याबद्दल माहिती नाही, त्या माहितीचं भाकीत करायचं. यात विदा आणि माहितीमधला फरक महत्त्वाचा आहे. शुक्रवारी संध्याकाळी ठरावीक व्यक्ती कोणत्या विषयाबद्दल बोलत होती, ही विदा. त्या व्यक्तीचं वय काय, ही माहिती. ही माहिती माणसांना सहज समजते; तिचा वापर करता येतो. कच्ची विदा असल्यास त्यातून काही आकलन होईलच असं नाही; शिवाय विदेतून माहिती मिळवायची तर बऱ्याच लोकांची, फुलांची, वस्तूंची विदा गोळा करावी लागते; त्याशिवाय पॅटर्न बनवता येत नाहीत. एक-दोन सांगोवांगी वापरून पॅटर्न बनवल्यास ते विश्वासार्ह असतीलच असं नाही.

विदाविज्ञानात केलेली भाकितं कधी चुकतात; बहुतेकदा बरोबर असतात. चुकांचं काय होतं? बनवलेलं प्रारूप किती चांगलं हे कसं ठरवलं जातं? ते पुढच्या भागात.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com