21 August 2019

News Flash

गूगल ट्रेण्ड्स सर्वेक्षणाचा नवा स्रोत

आंतरमहाजाल (इंटरनेट) हे माहितीचे जगड्व्याळ साधन आहे.

|| संहिता जोशी

आंतरमहाजाल (इंटरनेट) हे माहितीचे जगड्व्याळ साधन आहे. त्याच्या साहाय्याने अनेक गोष्टींचा अभ्यास करता येऊ शकतो. निवडणुकांच्या काळात मोठय़ा जनसमुदायाच्या मनात नेमकं काय घुसळतंय हे गूगल ट्रेण्ड्समधून जाणून घेता येऊ शकते.

बेज (Bayes) नावाचा संख्याशास्त्रज्ञ होता. त्यानं मांडलेलं प्रमेय ‘बेज थियरम’ संख्याशास्त्रात पायाभूत समजलं जातं. एकमेकांवर अवलंबून असलेल्या दोन घटना आहेत; आपल्याला एका घटनेची शक्यता किती ते माहीत आहे, दोन्ही घटना एकत्र घडण्याची शक्यता माहीत आहे.. तर दुसऱ्या घटनेची शक्यता किती, याचं गणित बेजनं मांडलं. हे शब्दांत वाचून समजणं किचकट आहे. तेव्हा उदाहरण बघू. श्रावणमासी काल पाऊस पडला का, हे माहीत असतं; आज पाऊस पडला का, हे मोजता येईल. असं श्रावणात दररोज मोजलं तर श्रावणात सलग दोन दिवस पाऊस पडण्याची शक्यता किती, याचं गणित म्हणजे बेजचं प्रमेय. ते फक्त सलग दोन दिवसांच्या भाकितासाठीच वापरता येतं असं नाही; संपूर्ण महिनाभर रोज पाऊस पडेल का, याची शक्याशक्यता मोजण्यासाठीही ते वापरता येतं.

आज पाऊस पडेल का, हे कालच्या पावसावर अवलंबून नसतं आणि उद्याच्या पावसावर आजच्या पावसाचा परिणाम होणार नाही, हे बेजच्या प्रमेयातलं गृहितक आहे. अनेकदा हे गृहितक मोडतं; तरीही व्यवहारात बेजचं प्रमेय वापरून केलेली गणितं फार चुकत नाहीत. या बेजियन (Baysian) गृहितकामुळे भाकीत करण्याच्या पद्धतीला ‘कच्ची बेज पद्धत’ (Naive Bayes) म्हणतात.

निवडणूक निकालाचं भाकीत आणि हल्ली ज्याला ‘जमिनी सत्य’ म्हणण्याची फॅशन आली आहे, त्याच्याशी याचा काय संबंध?

२०१९ च्या लोकसभा निवडणुकीआधी अनेकांनी सर्वेक्षणं केली. लोकांना प्रश्न विचारले. काहींनी मोठय़ा प्रमाणावर प्रश्न विचारले, काहींनी आपल्या आजूबाजूच्या लोकांना प्रश्न विचारले आणि त्यातून प्रत्येक पक्षाला किती जागा मिळतील याची भाकितं केली. लोकांना थेट प्रश्न विचारून केलेली सर्वेक्षणं आणि त्यातून मिळणारी भाकितं यांत कच्च्या बेज पद्धतीचं गृहितक धरलेलं असतं. दोन व्यक्तींची मतं एकमेकांच्या मतांवर अवलंबून नसतात, ती आपापली स्वतंत्र मतं असतात.

मत्रिणीला सिनेमा आवडला म्हणून आपणही बघितला. आईनं सुचवलं म्हणून ठरावीक जिन्नस चाखून बघितला. अशा प्रकारे आपण अनेकदा आपल्या आजूबाजूच्या लोकांच्या मतांमधून आपली मतं ठरवतो. लोकसभेचे निकाल पाहता पंतप्रधान मोदींचं मत किंवा बालाकोटला बॉम्बफेक करण्याचा निर्णय बहुतांश भारतीय मतदात्यांना पटला आहे असे दिसते. (हे उदाहरण अयोग्य, टोकाचं आहे. कारण त्या निर्णयाची अंमलबजावणी होईल अशी क्षमता फारच कमी लोकांकडे आहे.) सर्वेक्षणातून मिळालेली निवडणुकीची भाकितं चुकतात, याचं सरळसरळ गणिती कारण या बेजियन गृहितकात आहे.

ठरवून केलेल्या सर्वेक्षणांमधून पुरेशी विदा (डेटा) जमा होत नाही. याचं मुख्य कारण असतं- सर्वेक्षणांसाठी खूप खर्च होतो. प्रश्न तयार करणं, लोकांना ते प्रश्न विचारणं, त्यातून जमा झालेल्या विदेची वर्गवारी करणं वगैरे कामासाठी बौद्धिक आणि श्रमशक्तीची गरज असते. शिवाय हे काम वेळखाऊही असतं. सर्वेक्षणासाठी अनेकदा प्रत्यक्षात भेट, फोन, फॉर्म भरून घेणं असे पर्याय वापरले जातात. अशा निरनिराळ्या प्रकारे जमा झालेली विदा एकत्र करणं हेही कष्टाचं काम असतं. या अडचणींमुळे फार मर्यादित लोकांचीच विदा जमा करणं शक्य असतं. हे मर्यादित लोक जर एकमेकांशी जोडले गेले असतील तर बेजियन गृहितकाच्या मर्यादा आड येतात.

त्यातही सर्वेक्षणात समावेश झालेले सगळे लोक एकमेकांशी जोडलेले असण्याची गरज नाही. भारताची लोकसंख्या सव्वाशे कोटींची आहे. त्यापैकी अर्धे लोक मतदार आहेत असं मानलं आणि त्यातल्या अर्ध्या  मतदारांनी खरोखर मतदान केलं तरीही तीसेक कोटी मतदार होतात. त्यापैकी फार तर काही लाख लोकांची मतं सर्वेक्षणात विचारात घेता येतात. भारतात केवळ दोनच पक्ष नाहीत. अनेक राज्यांमध्ये तिथले स्थानिक पक्ष आहेत. त्यांचे आपापले अजेंडे निरनिराळे असतात. मतदारांना कोणता प्रश्न जवळचा वाटतो यातही बरंच वैविध्य असू शकतं.

दहा-पंधरा वर्षांपूर्वी निवडणुका आल्या की प्रचाराची रणधुमाळी माजत असे. प्रचारसभा, भाषणं, पत्रकं, भिंती रंगवणं असे प्रकार प्रचारासाठी वापरले जात असत. आता या पारंपरिक प्रचार पद्धतीची जागा आंतरजालानं (इंटरनेट) घेतली आहे. आता व्हॉट्सअ‍ॅप, फेसबुक, ट्विटरवरून प्रचार होतो. आज आपण एकमेकांशी मोठय़ा प्रमाणावर जोडले गेलो आहोत. मत्रिणीच्या जावेच्या चुलतभावाच्या सासूनं लिहिलेली पाककृती माझ्यापर्यंत सहज पोहोचू शकते, तशीच त्या सासूची राजकीय मतंही माझ्यापर्यंत सहज पोहोचतात. या मतांचा माझ्यावर.. आपल्या सगळ्यांवरच काहीबाही परिणाम होतोच. गणेशोत्सवातल्या स्पीकरच्या भिंती भले माझ्या घरासमोर उभ्या नसल्या तरी त्या सासूच्या घरासमोर असतील तर मलाही त्या आवाजाचा उपद्रव जाणवू शकतो. माझं मत ताबडतोब डॉल्बीविरोधी झालं नाही, तरी किमान थोडा आकस निर्माण होतोच.

सर्वेक्षणांमध्ये त्रुटी असण्याचं आणखी एक कारण असू शकतं- प्रश्नांची भाषा. ‘‘तुम्ही आता वापरलेलं क्रेडिट कार्ड तुमच्या मित्रमत्रिणींनाही सुचवाल का?’’ असा प्रश्न काही सर्वेक्षणांत विचारण्यात येतो. हे क्रेडिट कार्ड ठरावीक काही वेळा फार उपयुक्त असतं. बरेच पॉइंट्स मिळतात. पण माझे मित्रमत्रिणी अशा ठिकाणी खर्च करतच नसतील तर मी त्यांना ते सुचवून फायदा काय? सर्वेक्षणांच्या प्रश्नांमध्ये असं गृहितक असतंच असं नाही. पण असेल तर त्यातून मिळणारी उत्तरं किती विश्वासार्ह असतात, हे निश्चितपणे ठरवता येत नाही. ‘‘भारताचे पुढचे पंतप्रधान नरेंद्र मोदी असावेत की राहुल गांधी?’’ या प्रश्नात गृहितक आहे. आपण पंतप्रधानांना थेट मत देत नाही; तर खासदार निवडतो. भारतात अजूनही अध्यक्षीय लोकशाही नाही, संसदीय लोकशाही आहे. त्यामुळे या प्रश्नातून विश्वासार्ह उत्तरं मिळतीलच असं नाही.

ठरवून केलेल्या सर्वेक्षणांमधील सर्वात मोठी त्रुटी ही असते, की खरं उत्तर देण्यासाठी कोणीही बांधील नसतात. ‘‘मी काँग्रेसला मत देणार आहे,’’ असं सर्वेक्षणात म्हणणाऱ्यानं प्रत्यक्षात भाजप किंवा वंचित आघाडीला मत दिलं असेल तर? ‘मी उच्चवर्णीय आहे आणि मी ‘वंचित’ला मत देणार असं म्हटलं तर लोक काय म्हणतील?’ अशा समाजमान्यतेसाठी लोक खोटं बोलतात. कधी खोटं बोलायचं म्हणून खोटं बोलणारे लोक असतात! कारण खरं बोलण्यात काहीही फायदा नसतो आणि खोटं बोलण्यासाठी शिक्षाही नसते.

गूगल ट्रेंड्स का?

निवडणुकांआधी समाजमाध्यमांवर काही लोकांची मतं बघितली होती की- ते सामान्य लोकांच्या संपर्कात आहेत, त्यामुळे लोकांची मतं त्यांना माहीत आहेत. हे लोक त्याला ground truth म्हणत होते, कारण सर्वसामान्य लोकांची मतं आपण विचारात घेतली असं त्यांना वाटत होतं. हे बहुतेक लोक त्यांच्या राजकीय मतापेक्षा वेगळे कल (ट्रेंड्स) सांगत नव्हते. यातल्या ‘भाजप/ मोदी जिंकणार’ म्हणणाऱ्या लोकांची भाकितं खरी ठरली असं म्हणता येईल का? तर- नाही. त्यांनी ज्यांची मतं विचारली ते लोक तात्पुरत्या समाजमान्यतेसाठी खोटं बोलत असण्याची शक्यता आहे. दुसरी शक्यता अशी आहे की, एकेका माणसाची मतं समाजशास्त्रात महत्त्वाची असली तरी सांख्यिकीदृष्टय़ा त्याला अर्थ नसतो. तिसरी शक्यता अशी आहे की, प्रश्न विचारताना थोडे शब्दही इकडेतिकडे झाले तरी उत्तरं सांख्यिकीसाठी निरुपयोगी ठरतात. ‘‘मोदी पंतप्रधान व्हावेत असं तुम्हाला वाटतं का?’’ आणि ‘‘तुम्ही भाजपला मत देणार का?’’ हे प्रश्न एरवी फार निराळे वाटत नसले तरी सर्वेक्षणाच्या अचूकतेच्या दृष्टीनं ते निराळे समजावे लागतात.

भाकीत फक्त खरं आलं, एवढंच पुरत नाही. कुंडलीवाल्या ज्योतिषाचं भाकीत खरं ठरलं तरी त्याला काही आगापिछा, कार्यकारणभाव नसतो. त्यामुळे वैज्ञानिक दृष्टिकोनातून पाहता- खरं झालेलं असलं तरी ते भाकीत जुगारापेक्षा निराळं नसतं.

गूगलशी मात्र कोणी खोटं बोलत नाहीत. एक तर तिथे सामाजिक लोकप्रियतेचा दबाव नसतो. गूगल आपल्याबद्दल व्यक्तिगत मतं बनवण्याच्या फंदात पडत नाही. त्यांना उलट जितकं निल्रेप राहता येईल तितकं हवं असतं; कारण तसं नाही केलं तर त्यांचा नफा कमी होईल. दुसरं- वेगवेगळ्या गोष्टी गूगलवर शोधताना आपल्याला खासगी अवकाश मिळतो. तिसरं- गूगलशी खरं बोलून आपला फायदा होतो. तो कसा? समजा, मला सांडगी मिरची कशी करतात, हे हवं असेल आणि खोटं बोलून मी भरल्या वांग्यांबद्दल गूगलला विचारलं तर माझाच वेळ फुकट जाईल. उलट, मला जे शोधायचं आहे, तेच नेमक्या शब्दांत गूगलला विचारलं तर मला हवी ती माहिती मिळेल.

आपण सर्वेक्षणात भाग घेत आहोत, हेच मुळात गूगलवर आपल्याला समजत नाही. दहा महिन्यांपूर्वीही भारतात कोणत्या राज्यातून, कोणत्या वेळी कोणत्या गोष्टी गूगलल्या हे आज आपल्याला लहर आली तर शोधता येतं. ठरवून गूगलशीही खोटं बोलता येतं; पण ते बहुतेकसं गाळूनही घेता येतं.

समजा, मी ‘वंचित’ची मतदार आहे; पण गूगलवर शोधताना मी मोदी, राहुल गांधी, काँग्रेस, चौकीदार असल्या गोष्टीही कधीमधी शोधते. एरवी ‘वंचित’च्या बातम्या, जाहीरनामे, मुलाखती यांतही मला रस असणार. मी त्याही बातम्या, व्हिडीओ शोधणार. म्हणजे किती लोकांनी ‘वंचित’चा शोध घेतला, हे शोधताना त्यात मी शोधलेल्या बातम्या व व्हिडीओंचीही नोंद होणार. गूगलशोध जेवढे जास्त लोक वापरतात, तेवढे ट्रेंड्सचे आकडे अधिक विश्वासार्ह ठरतात.

गूगल ट्रेंड्सने हे एकत्र केलेले आकडे सगळ्यांसाठी उपलब्ध केले आहेत. घरबसल्या कसलाही कर वा शुल्क न देता हे आकडे मिळतात. आपली विदा (डाटा) आपण देत आहोतच. यात मत्रिणीच्या जावेच्या चुलतभावाच्या सासूचा माझ्यावर थेट किंवा अप्रत्यक्ष प्रभाव आहे हे दिसत नाही; पण कोणत्या भागातल्या लोकांवर कसला प्रभाव आहे, हे त्यात दिसतं.

याउलट, पारंपरिक सर्वेक्षणांची भाकितं चुकण्याची शक्यता वाढत जाते. भारतीय समाजाचे जात, धर्न, वर्ग, उत्पन्न गट, शहरी/ ग्रामीण, भाषा, स्थानिक राजकारण यानुसार खूप जास्त विभागणी करता येईल. सर्वेक्षणामध्ये सगळ्या गटांचा योग्य प्रकारे वानवळा (सॅम्पल) घेणं हा मुळात कठीण भाग असतो. पाश्चात्त्य देशांत अनेक दशकं सर्वेक्षणं होत असल्यामुळे समाजाचं प्रारूप (मॉडेल) हळूहळू सुधारत गेलं. भारतात सर्वेक्षणाची प्रथा फार जुनी नाही. दुसरं- भारतीय समाजात जाती, भाषा बदलणं शक्य/ सोपं नसलं तरीही आर्थिक बाबतीत वर्गीय बदल मोठय़ा प्रमाणावर होत आहेत. मोठय़ा प्रमाणावर लोक खालच्या उत्पन्न-गटातून वरच्या गटांमध्ये जात आहेत. स्थानिक राजकारणाची समीकरणं त्यातून बदलत आहेत. त्यामुळे भारतीय समाजाचा वानवळा घेणारं प्रारूप बनवणं आणखीनच कठीण काम आहे.

सर्वेक्षणात सहसा फार कमी लोकांची मतं विचारात घेता येतात. आधी म्हटल्याप्रमाणे, आपला संपर्क आता खूप जास्त लोकांशी अधिक नियमितपणे येतो. त्यामुळे पारंपरिक सर्वेक्षण पद्धती दिवसेंदिवस तोकडय़ा पडणार आहेत. गूगल वापरणारा वर्ग आता खूप मोठा आहे. पारंपरिक सर्वेक्षणासाठी होणारा खर्च नव्या तंत्रज्ञानामुळे फारच कमी झाला आहे. त्यामुळे लिंग, भाषा, राज्य, अशा वेगवेगळ्या पद्धतींनी आहे त्या विदेची वर्गवारी करून त्यातून निकाल मिळवणं बरंच सोपं झालेलं आहे.

जास्त माणसांची माहिती जशी गूगलवर मिळते, तेच काळाच्या संदर्भातही म्हणता येईल. पुलवामाच्या आधी किती लोकांनी मोदी आणि राहुल गांधी हे शब्द गूगलले आणि नंतर बालाकोटच्या आधी आणि नंतरही- हे सगळं आलेखात बघता येतं. त्याचे आकडे उपलब्ध आहेत. पारंपरिक सर्वेक्षण करण्यासाठी यापेक्षा खूपच जास्त वेळ लागतो. लोकांनी दिवसाच्या कोणत्या वेळेला मोदी आणि गांधी गूगलले, इतपत बारीकसारीक विदा मिळवून त्यातून माहिती मिळवता येणं आज शक्य झालं आहे.

आणखी एक गोष्ट बदलली आहे, ती म्हणजे विदा गोळा करणं जसं गूगलसाठी सोपं आहे, तसंच त्यांनी ही सगळी विदा गोळा करून ती बघणं फार सोपं केलं आहे. ‘google trends’ एवढंच शोधलं तरी त्याचा दुवा (लिंक) मिळेल. गूगलनं ते आलेख आणि त्यातून मिळणारी माहिती दाखवण्यासाठी सोपे डॅशबोर्ड बनवले आहेत. पूर्वी एखाद्या मोठय़ा आस्थापना/ संस्थेलाच जे शोधणं परवडत होतं, ते आता एकटय़ादुकटय़ा व्यक्तीला घरात बसून दिसतं. विदा आणि माहिती जेवढय़ा मोठय़ा प्रमाणावर आणि सोप्या पद्धतीनं लोकांना उपलब्ध होते, तेवढा तिचा वापर वाढतो. (याउलट, फेसबुक आणि ट्विटरची विदा गोळा करायची तर थोडंबहुत प्रोग्रॅमिंग माहीत असावं लागतं.)

लोक गूगलशी खोटं बोलण्याची शक्यता खूप कमी असते. त्यांच्याकडे चुटकीसरशी होणारे मतबदल नोंदवले जातात. ते शोधण्यासाठी पुन्हा बौद्धिक कष्ट होतातच; पण ते प्रमाण कमी होत आहे. ज्यांच्याकडे इंटरनेट आहे त्यांची (अ)राजकीय मतं गूगलकडे सापडू शकतात. त्यामुळे भारतीय समाजाचं जात, वर्ग, भाषा, लिंगाधारित असं कोणत्याही प्रकारचं प्रारूप बनवण्याआधीही ढोबळ अंदाज समजू शकतात. जसे अधिकाधिक लोक या माहितीचा वापर करून भारतीय समाज कसा विचार करतो, या समाजाला काय हवं आहे, यावर संशोधन सुरू करतील, तसतशा दोन गोष्टी होतील असं मला वाटतं..

  • पारंपरिक सर्वेक्षणांची भाकितं बरोबर आली तरीही त्यावर विश्वास ठेवणं कठीण होत जाईल. पर्यायानं त्यांची उपयुक्तता कमी होत जाईल.
  • भारतीय समाजाच्या इच्छा-आकांक्षा अशा सर्वेक्षणांमधून शोधता येतील. लोकांना राम मंदिर महत्त्वाचं वाटतं की सडक-बिजली-पानी; पाकिस्तानशी युद्ध करावंसं वाटतं की समाजातली आर्थिक, जातीय विषमता कमी व्हावीशी वाटते. असे प्रश्न गूगलला विचारता येतील. त्यातून राजकीय पक्षांचे जाहीरनामे लोकांच्या मागण्यांवर आधारित होण्याची शक्यता निर्माण होईल.

कोणत्याही समाजाला सर्वाच्या उन्नतीचा हेतू ठेवून प्रश्न विचारणाऱ्या लोकांची गरज असतेच. गूगल ट्रेंड्स आता या लोकांचे हात बळकट करेल की लोकानुनयी बुद्धिभेदासाठी हे अस्त्र वापरलं जाईल, हे आकडेवारीशिवाय सांगणं कठीण आहे.

314aditi@gmail.com

First Published on July 21, 2019 12:22 am

Web Title: google trends internet bayes theorem formula mpg 94