12 December 2019

News Flash

डेटा देता एक दिवस बरेच काही मागावे

गूगल, फेसबुक, ट्विटरादींना आपण आपली विदा मोठय़ा प्रमाणावर देतो. त्यातून आपल्याला काय मिळालं पाहिजे हाही प्रश्न तेवढाच महत्त्वाचा आहे

‘गूगल ट्रेन्ड्स’ वरचा हा आलेख शरद पवार (वरची रेघ), देवेंद्र फडणवीस (मधली रेघ) आणि संजय राऊत (खालची रेघ) यांच्याविषयीचा आणि  जानेवारी २०१९ पासूनचा आहे.

 

संहिता जोशी

गूगल, फेसबुक, ट्विटरादींना आपण आपली विदा मोठय़ा प्रमाणावर देतो. त्यातून आपल्याला काय मिळालं पाहिजे हाही प्रश्न तेवढाच महत्त्वाचा आहे. गुंतवणूकदारांना किती टक्के व्याजदर मिळावा, तशासारखाच हा प्रश्न आहे.

विदाविज्ञान (डेटा सायन्स) हे आजच्या काळातलं अवजार आहे. हे अवजार कसं वापरलं जातं आणि ते वापरून काय मिळवता येईल, याचा विचार महत्त्वाचा आहे. विदाविज्ञान वापरून विदेतले पॅटर्न, पुन्हा पुन्हा काय दिसतं हे शोधता येतं. विदाविज्ञानाचा मोठा भाग, मशीन लर्निंग, यात जी निरनिराळी अल्गोरिदम्स वापरली जातात, त्यांचं उद्दिष्टच असतं विदेत पुन्हा पुन्हा काय दिसत आहे, तो पॅटर्न शोधून त्यानुसार भाकितं करणं.

भाकितं कसली, ते आपण काय प्रश्न विचारतो त्यावर अवलंबून असतं. आता गूगलचं ‘स्मार्ट कंपोज’ आलं आहे; इंग्लिशमध्ये ईमेल लिहिताना तीन शब्द लिहिल्यावर पुढचे एक-दोन शब्द सुचवले जातात. यात पुढचे शब्द काय असतील, याचं भाकीत असतं. गूगल आणि फेसबुक भाषांतरं पुरवतात. सध्या ती जरा मजेशीरच असतात; सर्वसाधारणपणे सोप्या वाक्यांचं भाषांतर करणं विदाविज्ञानासाठी फार कठीण नाही. या कामासाठी बहुतेकदा विदा आपणच देतो. आपण जीमेलमध्ये काय ईमेल लिहितो, हे वापरून तीन शब्द लिहिल्यावर चौथा शब्द गूगल सुचवू शकतं. ‘‘आज हवा बरीच’’ असं म्हणल्यावर पुढचा शब्द काय असू शकतो? मराठी भाषेत लाखो शब्द असतील; त्यांतले काही मर्यादित शब्दच या वाक्यात येऊ शकतात. हा एक प्रकारचा पॅटर्न. दिवाळीनंतर कुणी आईला ईमेल लिहीत आहेत, त्याचा मजकूर काय असेल हे वर्षांतला काळ कोणता, आणि कोण कोणाला लिहीत आहे यावरून ठरवणं सोपं जातं. ही निराळी विदा, निराळा पॅटर्न. अशी निरनिराळ्या प्रकारची विदा वापरून पुढचा शब्द काय असेल याचा अंदाज घेतला जातो.

ही प्रणाली निदान येत्या काही वर्षांत तरी ‘लोकसत्ता’ किंवा ‘विदा-भान’मधला लेख व्यवस्थित लिहू शकणार नाही. साधं, नेहमीच्या वापरातलं वाक्य असेल तर तीन शब्दांनंतर चौथा शब्द काय असेल याचा अंदाज करणं सोपं(!) आहे. एक संपूर्ण परिच्छेद पुरवल्यानंतर पुढचं एखादं वाक्य लिहिणं शक्य होईल. पण जसजसे पुढचे अंदाज घ्यायला सुरुवात होईल, तशी भाकितांमधली अचूकता कमी होत जाईल. ‘‘आज हवा बरीच’’ असं म्हणल्यावर पुढे ‘‘.. बरी आहे’’ हे सुचवणं शक्य आहे. पण त्यापुढे नक्की काय म्हणायचं असेल? मत्रिणीला लिहीत असू तर पुढे ‘‘चालायला जायचं का?’’ विचारू. वडिलांना लिहिताना, ‘‘त्यामुळे माझा मूड बराच बरा आहे’’ असं लिहिणार असू.  हवेबाबत बोलणं निघाल्यावर इतर बरेच विषय निघतात; ठरावीक व्यक्तीशी बोलताना आपण पुढे कोणता विषय काढणार याचं भाकीत करणं सोपं नाही.

विदाविज्ञानाचा दुसरा भाग असतो, अभ्यासातून बदल सुचवणं. लेख लिहीत असताना एका अग्रलेखाबद्दल मत्रिणीनं तक्रार केली, ‘‘लेखात फार जुनाट मूल्याधारित भाषा आहे. ‘वैधव्य’, ‘सौभाग्य’, ‘काडीमोड’, ‘मर्द महाराष्ट्र’ असले शब्द लेखात आहेत.’’ वैधव्य, काडीमोड म्हणजे काही वाईट; सौभाग्य म्हणजे सगळं छान छान, आणि ‘मर्द महाराष्ट्रा’त नेमस्त वृत्तीचे लोक किंवा स्त्रियांना स्थान नाही का? विदाविज्ञान ही भाषा शिकून एक तर अशा छापाचं भाकीत करू शकतं- ‘‘आज हवा बरीच बरी आहे. सौभाग्यच आहे!’’ किंवा सुज्ञ विदावैज्ञानिक म्हणू शकतात- ही भाषा कोणत्या संदर्भात, कोणत्या समाजगटांत वापरली जाते याचा अभ्यास करू.

आपल्याकडे किती विदा आहे, ती किती देशांतून मिळवली आहे, वगैरे गिनीज बुकात नोंदवण्यासारख्या, आकडय़ांपलीकडे काही महत्त्व नसणाऱ्या आकडेवारीपेक्षाही, त्या विदेतून काय माहिती मिळवता येईल ही गोष्ट महत्त्वाची असते. विदेतून अभ्यास करायचा तर पोतंभर विदा मिळवली की झालं, असं होत नाही. त्यासाठी महत्त्वाचे, रोचक प्रश्न विचारावे लागतात.

गेल्याच आठवडय़ात शिवसेनेच्या प्रवक्त्या प्रियांका चतुर्वेदी यांनी ट्वीट केलं- ‘‘महाराष्ट्राच्या मुख्यमंत्र्यांबद्दल ठरावीक हॅशटॅग असणारी ट्वीट्स महाराष्ट्रापेक्षा जास्त दिल्लीतून झाली आहेत; ढाका आणि दुबईमधूनही ही ट्वीट्स येत होती.’’

यातला राजकारणाचा भाग इथे पूर्णतया अवांतर आहे. इथे महत्त्वाचा मुद्दा असा की ट्वीट्स कुठून केली याची विदा – जिओटॅगिंग – वापरून कोणते हॅशटॅग कुठून वापरले हे समजतं. महाराष्ट्राशी संबंधित प्रश्नावर कुठून लिहिलं जात आहे, याबद्दल माहिती मिळवता आली. ट्विटरवर मोठय़ा प्रमाणावर लोक लिहितात, म्हणजे ट्विटरकडे खूप विदा उपलब्ध आहे. जोवर चतुर्वेदी यांनी त्या विदेला योग्य प्रश्न विचारला नाही, तोवर त्यातून काही माहिती मिळाली नाही.

तशीच गोष्ट गूगल ट्रेंड्सची. विदावैज्ञानिकांनी गूगल ट्रेंड्सचा अभ्यास केला; आणि एप्रिलमध्ये लोकसभा निवडणुकीच्या महिनाभर आधी, भाकितं केली. ही भाकितं इतर सर्वेक्षणांपेक्षा खूप स्वस्तात झाली – किंवा खूप जास्त लोकांनी त्यासाठी थोडा थोडा खर्च केला – वीज, आंतरजाल जोडणी वगैरे – आणि या भाकितांची अचूकताही बरीच जास्त होती. विधानसभा निवडणुकीच्या काही महिने आधी, गूगल ट्रेंड्समध्ये शरद पवार बऱ्यापैकी लोकप्रिय असल्याचं दिसत होतं. तेव्हा राष्ट्रवादीमधून इतर पक्षांमध्ये पक्षांतरही सुरू झालेलं नव्हतं; ईडीची नोटीस वगैरे गोष्टी नंतर घडल्या. जेमतेम निवडणुकांपूर्वी राष्ट्रवादी संपेल अशी भाकितं काही लोक वर्तवत होते, तरीही तसं काही झालं नाही. गूगल ट्रेंड्सचा काळजीपूर्वक अभ्यास करून निवडणुकांची गोळाबेरीज भाकितं करणं शक्य आहे.

आपण आपली विदा ट्विटर, फेसबुक, गूगल, आता टिकटॉकलाही देतो. त्यातून आपल्याला काय मिळावं अशी मागणी रास्त आहे? गूगल ट्रेंड्स हे विश्लेषणाचं अवजार गूगलनं सगळ्यांना उपलब्ध करून दिलेलं आहे. (trends.google.com) ते वापरून लोकांना काय हवं आहे, काय महत्त्वाचं वाटतं हे शोधता येणं शक्य झालं आहे. लेख लिहीत असताना महाराष्ट्राचे मुख्यमंत्री कोण हे ठरत नव्हतं आणि राष्ट्रपती राजवट लागू होईल अशी चर्चा सुरू झाली होती. ६ ते ९ नोव्हेंबर या काळात, महाराष्ट्रातून राष्ट्रपती राजवटीबद्दल गूगलणं वाढलं; आधीच्या सात दिवसांच्या सरासरीच्या सहापटीपर्यंत वाढलं. त्या हिशेबात मुख्यमंत्री या संज्ञेबद्दल गूगलण्याचं प्रमाण फार बदललेलं दिसलं नाही.

विदा आहे, महत्त्वाचे प्रश्न विचारले म्हणून लगेच उत्तर मिळतं असं नाही. वर जे आकडे दिले, त्यातून नक्की मुख्यमंत्री कोण होणार किंवा राष्ट्रपती राजवट लागू होईल का, याचं ठोस उत्तर मिळत नाही.

गूगल, फेसबुक, ट्विटरादींना आपण आपली विदा मोठय़ा प्रमाणावर देतो. त्यातून आपल्याला काय मिळालं पाहिजे हाही प्रश्न तेवढाच महत्त्वाचा आहे. गुंतवणूकदारांना किती टक्के व्याजदर मिळावा, तशासारखाच हा प्रश्न आहे.

गूगल ट्रेंड्स हे विदाविश्लेषणाचं अवजार आहे, हत्यार नाही. ते अवजार वापरून संशोधकांना बऱ्याच गोष्टी समजतात. फेसबुक, ट्विटर या बाबतीत अजूनही बरेच मागे आहेत. त्यांनी उपलब्ध करून दिलेल्या विश्लेषण-अवजारांतून फार तर सतत आरशात पाहता येतं – आपल्या ट्वीट्स किंवा फेसबुक-स्टेटसांना कोणी, कसा प्रतिसाद दिला यापलीकडे काही मिळत नाही. आपल्या आसपासचं जग समजून घेणारे आकडे हवे असतील तर ते सहज सोपं नाही. आपल्या विदेची मालकी कोणाकडे असावी, यासारखाच महत्त्वाचा प्रश्न आहे- आपली विदा गोळा करणाऱ्यांकडून आपण काय मागावं!

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com

First Published on November 13, 2019 12:11 am

Web Title: data science data pattern algorithms abn 97
Just Now!
X