21 July 2019

News Flash

‘गुगल सर्च’चे अंतरंग

गुगलचा वापर सगळेच करतात.

|| हृषिकेश दत्ताराम शेर्लेकर

गुगलचा वापर सगळेच करतात. त्याचे सर्च इंजिन नक्की कसे काम करते, हे जाणून घेणेही महत्त्वाचे आहे. काही दशकांपूर्वी, खासकरून परीक्षांच्या हंगामात सर्रास आढळून येणारे दृश्य म्हणजे शाळा-कॉलेजची लायब्ररी, टेबलावर पुस्तकांचा ढीग, अभ्यासू मुले, त्यांचे तासन्तास बसून वाचन, नोट्स काढणे चाललंय. शोधनिबंध लिहायचा म्हटला तर बघायलाच नको, अगदी गट करून मग लायब्रऱ्या, वर्तमानपत्रांतील कात्रणे, बरीच दगदग करून मिळविलेली एखाद्या तज्ज्ञ, प्राध्यापक किंवा शास्त्रज्ञाची भेट व मुलाखत असे बरेचशे ‘भौतिक’ व्यवहार पार पाडत शेवटी काही पानांचा तो ‘रिसर्च पेपर’ मग शैक्षणिक प्रकल्प म्हणून सादर केला जायचा आणि परीक्षा झाल्यावर नकळतपणे तोच ‘कागदी रिपोर्ट’ घरच्या किंवा कॉलेजच्या कुठल्या तरी कपाटात धूळ खात पडून राहायचा. तीच परिस्थिती व्यावसायिक तज्ज्ञ, प्राध्यापक, शास्त्रज्ञ वा कॉर्पोरेट्स यांची. त्यांचे ज्ञान फक्त त्यांच्या व्यावसायिक परिघापर्यंत मर्यादित राहायचे. छापील वृत्तपत्रे, मासिके व अर्थातच पुस्तकांमधून विद्येचा प्रसार सुरूच होता वा आहे म्हणा. पण उपलब्धता, आर्थिक गणित, विशेषाधिकार असल्या मर्यादांमुळे जनसामान्यांच्या नशिबाला जगातील उपलब्ध माहिती-ज्ञान-विज्ञान नक्कीच नव्हते. ‘डिजिटल’ विश्वाची निर्मिती व प्रसार झाल्यापासून वरील परिस्थिती आमूलाग्र बदलली. बरीच जुनी व नवीन माहिती ‘डिजिटल’ स्वरूपात आज उपलब्ध होते आणि त्यात प्रचंड प्रमाणात भर पडलीय ती समाज माध्यमांचा उदय झाल्यापासून सामान्यांनी निर्माण केलेल्या माहितीने. कोणीही ज्ञान द्यावे- ज्याला हवे त्याने ते घ्यावे. यालाच म्हणतात ‘इन्फॉर्मेशन डेमोकट्राझेशन’ म्हणजे ‘माहितीचे लोकशाहीकरण’. पण इंटरनेटवर उपलब्ध असलेली सर्व माहिती सहजासहजी, अचूकपणे व हवी तेव्हा शोधताच नाही आली तर?

‘जस्ट गुगल’, ‘गुगल कर’ म्हणजेच इंटरनेटवर शोध घे अशी वाक्ये हल्ली सर्रास वापरली जातात. ऑक्सफर्ड इंग्लिश डिक्शनरीने २००६ मध्ये गुगल शब्दाला आपल्या अधिकृत शब्दकोशात स्थान दिले आणि एक ‘सर्च इंजिन’ संज्ञेवरून त्यांचा एका क्रियापदापर्यंतचा आश्चर्यकारक प्रवास पूर्ण झाला. इतर कंपन्यादेखील आहेतच सर्च इंजिन व्यवसायात- जसे मायक्रोसॉफ्ट बिंग, चीनमधील बैदु वगैरे. पण नक्की काय आहे इंटरनेट सर्च? क्लिक केल्याक्षणी क्षणार्धात विषयाशी संबंधित लिंक्स कशा काय सादर होतात? पेड जाहिराती, डिजिटल मार्केटिंग म्हणजे काय? आणि या सगळ्यात ‘कृत्रिम बुद्धिमत्ता’ कोठून आली? या मागील विज्ञान आपण जाणून घेऊ  या लेखात ‘गुगल सर्च’चे उदाहरण घेऊन.

संपूर्ण इंटरनेट जर कागदावर छापायचं ठरवलं तर कमीतकमी १३६ अब्ज ‘ए ४’ आकाराची पाने लागतील. हादेखील २०१५चा ‘विकिपीडिया’वर आधारित अहवाल. असे म्हणतात की प्रत्येक मिनिटात इंटरनेटवर सरासरी ३०० ते ५०० नवीन वेब-पेजेस निर्माण केली जातायेत. हा फक्त २० टक्के डेटा झाला. उर्वरित ८० टक्के व्हिडीओ, फोटो, ऑडिओ क्लिप्स इत्यादी. फक्त ‘इंटरनेट मिनट्स’ म्हणून सर्च केलंत तर तुम्हाला एका मिनिटाला इंटरनेट जगात काय काय घडते याचा सविस्तर आलेख बघायला मिळतो. त्यात गुगल वापरून एका मिनिटात सरासरी ३८ लाख सर्च होतात. तसेच फेसबुकवर अडीच लाख नवीन फोटो, यूटय़ूबवर ४०० तासांचे नवीन व्हिडीओ, १५०० लाख ईमेल वगैरे.

गुगलने सुरुवात केली १९९७ मध्ये. तेव्हा इंटरनेटवर उपलब्ध असलेल्या वेब पेजेसमधील ‘टेक्स्ट’ स्वरूपातील माहितीच फक्त शोधता यायची. २०११ मध्ये त्यात अनेक सुधारणा होऊन ‘व्हॉइस’ सर्च फीचर आले. मग २०१६ पासून ‘डीप नुएरल नेटवर्क्‍स’ नावाची अद्ययावत एआय प्रणाली त्यात समाविष्ट केली गेली, ज्यामुळे नॅचरल लँग्वेज स्वरूपातील माहिती, व्हिडीओ, फोटो, ऑडिओ आणि सर्च संबधित ‘संदर्भ’देखील सर्चच्या कक्षेत आणले गेले. आता बघू सर्च इंजिन नक्की कसे काम करते आणि त्याविषयी विविध संकल्पना.

१) वेब-क्रॉलिंग : सर्वप्रथम गुगलचे ‘स्पायडर्स’ नामक रोबोटिक सॉफ्टवेअर प्रोग्राम्स सतत इंटरनेटवरील नवनवीन माहितीचा शोध घेत राहतात. नवीन वेबसाइट्स, वेब-पेजेस, मजकूर, टाइटल्स, कीवर्ड्स, टॅग्स, नेव्हिगेशन थोडक्यात तुमची सर्व माहिती व हा मजकूर कोणाला उपयुक्त होईल याबद्दल माहिती त्यांच्या ‘डेटाबेस’मध्ये साठवली जाते.

२) माहितीचे सादरीकरण : पुढची पायरी वापरकर्त्यांने टाइप केलेली सर्चसंबंधित माहिती, वरील ‘डेटाबेस’मध्ये शोधणे व योग्य प्रकारे सादर करणे. यात सध्या पाच प्रकारची माहिती आपल्याला एकाच स्क्रीनमध्ये दाखविली जाते. १) गुगल सर्च-बारच्या बरोबर खाली असतात ‘पेड’ जाहिराती. २) त्या खाली असते ‘ओर्गेनिक’ म्हणजे सामान्य माहिती. ३) त्याखाली असतात सर्चसंबंधित बातम्या, व्हिडीओ लिंक्स इत्यादी. ४) शेवटी असतात सर्चसंबंधित समाज माध्यमांवरील लिंक्स. ५) हल्ली स्क्रीनच्या उजवीकडे ‘नॉलेज ग्राफ’ नामक सर्चसंबंधित माहिती येऊ  लागलीय. उदाहरणार्थ समजा मी सर्च केले ‘गोवा’ तर ‘नॉलेज ग्राफ’मध्ये गोव्याची राजधानी, मॅप, फोटो, प्रवास मार्गदर्शन, प्रमुख स्थळे अशी माहिती दिसते.

३) पेज-रँक : माहिती सादरीकरणासाठी वरील ‘डेटाबेस’मधून समजा सर्चसंबंधित चाळीस वेबसाइटस गुगलला योग्य वाटल्या तरी त्यांची एका ओळीत कुठल्या क्रमाने वा नियमानुसार मांडणी करायची? पेज-रँक नियमावलीमध्ये त्या चाळीस वेबसाइट्सना याआधी किती क्लिक्स मिळाल्या, कोणाकडून व कुठल्या साइट्सवरून मिळाल्या त्यावरून त्या केलेल्या सर्चशी किती योग्यप्रकारे संबंधित असाव्यात याचे मूल्यांकन केले जाते. त्यावरून त्यांना १ ते ४० असा ‘रीयल-टाइम’ रँक दिला जातो आणि त्याच रँकनुसार सर्च निकाल क्रमाने सादर केले जातात, ज्याला नाव पडलेय ‘एसईआरपी’- सर्च इंजिन रिझल्ट्स पेज. वेबसाइट सर्वात वरच्या क्रमात दिसावी म्हणून त्यात योग्य प्रकारे टायटल्स, कीवर्ड्स, टॅग्स वापरणे वा बदलणे या कामाला ‘एसईओ’- ‘सर्च इंजिन ऑप्टिमायझेशन’ म्हणतात.

४) पेड जाहिराती व डिजिटल मार्केटिंग : गुगलचा जवळजवळ नव्वद टक्के महसूल ‘पेड’ जाहिरातींमधून येतो. आपण काही सर्च करावे, उदाहरणार्थ ‘केस गळण्यावरती उपाय’ आणि बरेच दिवस आपल्या वेब ब्राऊजर, ईमेल विण्डोमध्ये, इतर वेबसाइट्सच्या आत सतत केस गळण्यावरती औषधे, क्लिनिक्स, हेयर-ट्रान्सप्लांट ट्रीटमेंट वगैरे जाहिरातींचा भडिमार आपण अनुभवलाच असेल. हल्लीच्या डिजिटल युगात गमतीने एक म्हण पडलीय, ‘तुम्हाला एखादी सेवा जर विनामूल्य दिली जात असेल नक्कीच समजा की तुम्ही त्या कंपनीचे ग्राहक नसून त्यांचे प्रॉडक्ट आहात’!

५) रँक-ब्रेन अल्गॉरिथम : २०१६ पासून ‘डीप नुएरल नेटवर्क्‍स’ नावाची अद्ययावत कृत्रिम बुद्धिमत्ता वापरात आणून गुगलने ‘सर्च’ अतिशय वेगळ्या पातळीवर नेऊन ठेवलाय म्हणायला हरकत नाही. यापूर्वी सर्च रिझल्ट्स सादर करण्यासाठी वरील बघितल्याप्रमाणे रँकिंग वापरले जायचे, ज्यात वेबसाइटचा मजकूर आणि मिळालेले क्लिक्स इथपर्यंतच मजल होती. सर्चसंबंधित संदर्भ, मागचा इतिहास, एखादा सर्च का केला जातोय, कोण करतोय, पूर्वी काय सर्च केले होते जे या विषयाशी निगडित आहे? असे काही शास्त्र नव्हते.

‘विचारण्याआधीच’ पुढे ‘काय विचारू शकेल’ किंवा ‘खरेच काय विचारायचे असावे’ याचा अंदाज व त्यानुसार उत्तरे, अशी जबरदस्त क्षमता रँक-ब्रेन नामक एआय अल्गॉरिथममुळे गुगल सर्चमध्ये आणली गेलीय. एक उदाहरण घेऊ  या. समजा तुम्ही ‘इंजिनीअरचे वार्षिक वेतन’ असे सर्च केले तरी गुगल तुमच्या आयपी लोकेशनवरून तुम्ही पुण्यात राहता, तुम्ही कॉलेज ऑफ इंजिनीअरिंग पुणेमध्ये शिकताय किंवा शिकविताय. कारण तुम्ही त्या कॅम्पसला रोज ये-जा करता जे गुगल मॅपला माहीत असणार. अधिक गुगलला तुम्ही कॉम्प्युटर शाखेला असावेत असे वाटते, कारण तुम्ही सॉफ्टवेअरबद्दल बरीच माहिती सर्च करता, बातम्या वाचता, पुस्तके मागवता, वगैरे बरीच वैयक्तिक माहिती रीयल टाइम मिळवली जाते. अक्षरश: तुमची ‘कुंडली’ काढल्यासारखी. मग त्यावर योग्य व सूचक उत्तर म्हणून न विचारताही सर्च रिझल्ट्समध्ये तुम्हाला ‘पुण्यातील कॉम्प्युटर इंजिनीअरचे ‘वार्षिक सरासरी वेतन’बद्दल माहिती दिसते. त्यासोबत तुमच्या सर्चसंब्ांधित सध्याची टॉप प्रश्नोत्तरे, व्हिडीओ लिंक्स, इतर बरीच माहिती जी तुम्ही पुढे विचारू शकाल असा गुगलला अंदाज आल्यामुळे आधीच सादर केली जाते.

एआयच्या (कृत्रिम प्रज्ञा) प्रमुख संकल्पनेप्रमाणे जितकी उदाहरणे वा वापर तितकीच जास्त स्वसुधारणा व लर्निग, म्हणजे कालांतराने सर्च प्रत्येक वापरासोबत अजून प्रगत, प्रगल्भ होत जाणार. आहे ना अफलातून संकल्पना. पण एक दिवस मनातलेदेखील सर्च नाही केले म्हणजे मिळवले.. नाही तर पंचाईत!

लेखक टाटा कन्सल्टन्सी सव्‍‌र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अ‍ॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत.

hrishikesh.sherlekar@gmail.com

First Published on April 15, 2019 2:22 am

Web Title: how does google search engine work