|| हृषिकेश दत्ताराम शेर्लेकर

विदा-विश्लेषणाचे प्रकार पाहिल्यानंतर विश्लेषण प्रक्रियेतील काही महत्त्वाच्या संकल्पना पाहणे आवश्यक आहे..

‘हे आहे म्हणून तेदेखील आहेच; हे अस्तित्वात नाही म्हणून तेही अस्तित्वात नाही; हे संपेल तेव्हा तेदेखील संपणार आहे आणि हे निर्माण होईल तेव्हा तेदेखील निर्माण होईलच..’    – गौतम बुद्ध

या विश्वाच्या पसाऱ्यात कितीही विविधता आणि नसर्गिकता भासत असली, तरी आपल्या सामान्य ज्ञानक्षमतेच्या पलीकडे एक विशिष्ट सूचिबद्धता आहे, असेच काहीसे बुद्धांना सुचवायचे असेल का? असो. आज विदा-विश्लेषणाचा (डेटा-अ‍ॅनालिटिक्स) शेवटचा अध्याय आणि पुढे अ‍ॅनालिटिक्सचे काही महत्त्वाचे प्रकार आणि संकल्पना पाहू..

(१) संभाव्यता (प्रोबॅबिलिटी) :

संभाव्यता म्हणजे एखादी घटना घडण्याची शक्यता. संभाव्य निकाल म्हणजे अनुकूल परिणाम भागिले एकूण परिणाम. सर्वात सोपे उदाहरण म्हणजे एखाद्या सामन्यासाठीची नाणेफेक; यात ५० टक्के शक्यता छापा पडण्याची, तर ५० टक्के शक्यता काटा पडण्याची. काय घडले होते आणि त्यावरून भविष्यात काय होऊ शकेल, हे सांगणाऱ्या विश्लेषणास ‘प्रेडिक्टिव्ह अ‍ॅनालिटिक्स’ म्हणतात. हे सर्व ‘प्रोबॅबिलिटी थिअरी’वरच तर आधारित आहे. इतकेच काय, संभाव्यतेची संकल्पना, संख्याशास्त्र, कलनशास्त्र वगरे गणितीविज्ञान विदा-विश्लेषणाचे प्रमुख आधारस्तंभ आहेत.

(२) नमुने आणि अंदाज :

प्रचंड विदा (डेटा) संचामधून ठरावीक नमुने घेऊन त्यावरून विश्लेषण केले जाते. चुकीचे नमुने असतील तर चुकीचे विश्लेषण येते. म्हणूनच नमुनेशास्त्र हे अ‍ॅनालिटिक्सचे एक महत्त्वाचे अंग मानले जाते. उदा. भारतातील लोकसंख्या सव्वाशे करोडच्या वर आहे. आता त्यावर विशिष्ट विश्लेषण करायचे झाल्यास नमुने कोणाचे मिळवायचे, हा सर्वात गहन प्रश्न असतो. ‘बिग-डेटा’सारख्या तंत्रामध्ये सरसकट सर्व उपलब्ध विदासंच वापरला जातो.

 (३) सहसंबंध (कोरिलेशन) :

‘आर्टिफिशियल इंटेलिजन्स’ अर्थात कृत्रिम प्रज्ञेवरील लेखांत आपण ‘घरांच्या किमती वर्तवणे विरुद्ध घरांबद्दल विविध प्रकारची (जसे घराचे क्षेत्रफळ, मजला, खोल्या इत्यादी घटक) माहिती’ असे उदाहरण बघितले होते. बरेचदा असे घटक हजारोंच्या घरात जातात. विश्लेषण करताना त्यातील कुठले वापरायचे, कुठले एकत्र जोडायचे, कुठले गाळायचे, तसेच कुठल्यांना जास्त महत्त्व द्यायचे, याबद्दलचे शास्त्र म्हणजे ‘कोरिलेशन’ (सहसंबंध)!

(४) लिनीयर रिग्रेशन अल्गॉरिदम :

‘लिनीयर रिग्रेशन’ दोन विदासंचांमध्ये रेषात्मक समीकरण बसवून त्यातील संबंध (उदाहरणार्थ : य = अ + ब x क्ष) मांडते. असले अल्गॉरिदम एका घटकावरून अंदाज (उदा. घराच्या क्षेत्रफळावरून त्याची किंमत), तसेच अनेक घटकांवरून अंदाज (उदा. घराचे क्षेत्रफळ/ खोल्या/ मजला/ दिशा.. आदींवरून किंमत) असे दोन प्रकारचे असतात.

(५) लॉजिस्टिक रिग्रेशन अल्गॉरिदम :

विदेचे वर्गीकरण करण्यासाठी ‘लॉजिस्टिक रिग्रेशन’ हा एक लोकप्रिय अल्गॉरिदम आहे. मूलभूत तंत्र लिनीयर रिग्रेशनसारखेच असून, इथे फक्त लॉग सूत्र वापरले जाते. उदा. रक्तदाब १४०/९०च्या वर असेल, तर रुग्णाला उच्च रक्तदाब (हायपर-टेन्शन) आजार आहे (क्ष = १) आणि रक्तदाब १४०/९०च्या खाली असेल, तर रुग्णाला उच्च रक्तदाब हा आजार नाही आहे (क्ष = ०) अशा दोनच शक्यता असू शकतात. असले शून्य/एक प्रकारचे विदा-विश्लेषण करण्यासाठी ‘लॉजिस्टिक रिग्रेशन’ वापरात येते.

(६) डीसिजन-ट्री अल्गॉरिदम :

प्रचंड विदासंच लहान उपसंचांमध्ये विभागून त्यातून ‘निर्णय-वृक्ष आराखडा’ हळूहळू विकसित केला जातो. अंतिम परिणाम म्हणजे, अनेक शाखा असलेल्या झाडासारख्या दृश्य स्वरूपात विदासंच मांडून त्यावरून नियमावली आणि त्यावरून अंदाज. उदा. शाळेतील विद्यार्थी, अनेक इयत्ता, विविध विषय, त्यातील गुण, वर्ग-शिक्षक.. असा सगळा विदा निर्णय-वृक्षरूपात मांडून विद्यार्थ्यांना दहावीच्या परीक्षेत किती गुण मिळतील, याचा अंदाज वर्तवणे. त्यातील आणखी पुढचा प्रकार म्हणजे- ‘रॅण्डम फॉरेस्ट अल्गॉरिदम’!

(७) डीप लर्निग आर्टिफिशियल न्यूरल नेट (एएनएन) अल्गॉरिदम :

याबद्दल आपण कृत्रिम प्रज्ञे(एआय)वरील लेखांमध्ये सविस्तर चर्चा केली होती. एएनएनमध्ये प्रश्न (य) – उत्तरे (क्ष) असे असंख्य विदासंच एआय अल्गॉरिदमला पुरवून त्यातून ‘य’ आणि ‘क्ष’ यांच्यातील समीकरण शोधले जाते आणि त्यावरून पुढील अंदाज वर्तवला जातो. उदा. गूगल मॅप्स आणि प्रवासाचा वेळ वर्तवणे.

 (८) विसंरचित विदा-विश्लेषण :

साधारणपणे विश्लेषण संरचित (स्ट्रक्चर्ड) विदाचेच होते. संरचित विदा म्हणजे ओळींत आणि स्तंभांत व्यवस्थित मांडलेले आकडे. त्याविरुद्ध विसंरचित (अनस्ट्रक्चर्ड) विदा म्हणजे मनुष्याने लिहिलेला मजकूर, संवाद, छायाचित्रे, दृक्मुद्रण, ईमेल संभाषण, फोनवरील संभाषण इत्यादी. त्यांचे विश्लेषण करायचे, तर साधारण विश्लेषण तंत्रज्ञान उपयोगी नाही. ‘डीप-लर्निग आर्टिफिशियल न्यूरल नेट अल्गॉरिदम’ नामक कृत्रिम प्रज्ञेमुळे हल्ली नसर्गिक भाषा/ छायाचित्रे/ दृक्मुद्रण यांचे विश्लेषण शक्य होत आहे. त्यासाठीचा विदासंच मनुष्यबळ वापरूनच तयार होतो आहे. सर्वोत्तम उदाहरण- चालकविरहित गाडीसाठी लागणाऱ्या रस्त्यांचे चित्रीकरण स्ट्रीट-कार्समार्फत करून त्यांचे फोटो-टॅिगग करावे लागते. फोटो-टॅगिंग म्हणजे रस्त्यांच्या दृक्मुद्रणापासून छायाचित्रे, मग त्या छायाचित्रामधील वस्तूंचे मार्किंग करणे.

 (९) ईमरसिव्ह अनॅलिटिक्स :

‘डेटा-व्हिज्युअलायझेशन’मधील पहिला टप्पा म्हणजे संगणक/ मोबाइलच्या पडद्यावर २-डी तक्ते सादर करणे. ३-डी दृश्य म्हणजे त्यातील पुढील पायरी. त्यापुढची पायरी म्हणजे ‘ऑग्मेंटेड रिअ‍ॅलिटी’- म्हणजे तेच तक्ते तुमच्यासमोर चक्क‘प्रकट’ झाल्यासारखे दिसणे. त्याला तुम्ही स्वत:च्या बोटांनी हाताळूदेखील शकता. साध्या मोबाइलद्वारा असले ‘प्रकटीकरण’ हल्ली शक्य होत आहे.

पुढे पाहू अ‍ॅनालिटिक्स प्रकल्पातल्या महत्त्वाच्या पायऱ्या.. म्हणजेच ‘डेटा टु इंटेलिजन्स टु अ‍ॅक्शन’चा प्रवास :

(अ) समस्या किंवा स्वप्न (का? किंवा काय?) सुरुवात इथून करावी.

(आ) विदेचा स्रोत.. कुठून, कुठला, कसा विदा मिळवायचा, किती खर्च वगैरे.

(इ) विदा हस्तगत/ एकत्रित करणे. (विदा मिळवणे आणि एका ठिकाणी साठवणे.)

(ई) विदेचे शुद्धीकरण व विघटीकरण

(उ) विदेचे विश्लेषण (वरील अल्गॉरिदम्स वापरून विश्लेषण करणे.)

(ऊ) विदा विश्लेषणाची चाचणी, सुधारणा

(ए) विदा व्हिज्युअलायजेशन (दृश्यरूप २-डी/ ३-डी/ ईमर्सिव्ह)

(ऐ) विदा विश्लेषणापासून संदर्भ, कल (इनसाइट्स व इंटेलिजन्स)

(ओ) इनसाइट्स व इंटेलिजन्सपासून निर्णय वा कृती

(औ) दुरुस्ती, परिष्करण (रिफाइनमेंट्स)

(अं) विश्लेषणापासून मिळालेला व्यावहारिक परिणाम, गुंतवणुकीचा परतावा (बिजनेस व्हॅल्यू)

(अ:) चक्र सुरू – पुन्हा नवीन समस्या किंवा स्वप्न (पुढील प्रवास) आणि अर्थातच काही प्रमुख समस्या :

(अ) येऊ घातलेला बदल, त्यातून निर्माण झालेली भीती, आपले काय होईल याबद्दल चिंता आणि एकंदरीत बदलण्याची अनिच्छा. इथे कुठलेच तंत्रज्ञान कामाला येत नसून वरिष्ठांचे नेतृत्वगुण व गरज पडल्यास साम-दाम-दंड-भेद.

(ब) विदेचा स्रोत हस्तगत करणे, त्यातील सुरक्षा, कायदे व नियम, वैयक्तिक विदा वगैरे अडचणी व विदेची गुणवत्ता, मनुष्यबळ वापरून साफसफाई करण्यास येणारा खर्च.

(क) दुरुस्ती, परिष्करण म्हणजे प्रकल्प कायम सुरू ठेवण्याचा खर्च. मनुष्यबळ, सॉफ्टवेअर परवाना, हार्डवेअर, डेटा-कॅप्चरचा वेगळा खर्च.

(ड) सर्वात प्रमुख म्हणजे विदेपासून इनसाइट्स व इंटेलिजन्स मिळूनही निष्क्रियता आणि निर्णयाचा अभाव आणि म्हणूनच व्यावहारिक परिणाम, गुंतवणुकीचा परतावा शून्य.

‘डेटा इज द न्यू ऑइल’ असे म्हणतात खरे; पण त्या विदा-विश्लेषणापासून निर्णयक्षमता आणि क्रियाशीलता आपल्या दैनंदिन जीवनात आणणे हीच पुढे जाऊन आपले स्पर्धात्मक वैशिष्टय़ व भविष्यातील प्रगतीसाठीची गुंतवणूक ठरेल.

अधिक वाचनासाठी खालील स्थळांना भेट देऊन डेटा-अ‍ॅनालिटिक्सच्या जागतिक स्तरावरील टॉप-फोर कंपन्यांचे प्रॉडक्ट्स हाताळून बघा :

https://powerbi.microsoft.com/en-us/

https://www.qlik.com/us

https://www.thoughtspot.com/

https://www.tableau.com/

आजचा प्रश्न :

मागील लेखात तुम्ही तुमच्या रोजच्या दैनंदिन जीवनातील एखादा प्रश्न, अडचण वा इच्छा, स्वप्न आणि डिस्क्रिप्टिव्ह अ‍ॅनालिटिक्स केलेत. आता पुढे जाऊन प्रेडिक्टिव्ह व प्रिस्क्रिप्टिव्ह कसे कराल, केल्यास काय फायदा होईल, त्याबद्दल कळवा.

hrishikesh.sherlekar@gmail.com

लेखक टाटा कन्सल्टन्सी सव्‍‌र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अ‍ॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत.