Latest Marathi News- Breaking News Today | Read Marathi Batmya from Maharashtra, India ब्रेकींग मराठी न्यूज at https://loksatta.com/

|| हृषिकेश दत्ताराम शेर्लेकर

विदा-विश्लेषणाचे प्रकार पाहिल्यानंतर विश्लेषण प्रक्रियेतील काही महत्त्वाच्या संकल्पना पाहणे आवश्यक आहे..

‘हे आहे म्हणून तेदेखील आहेच; हे अस्तित्वात नाही म्हणून तेही अस्तित्वात नाही; हे संपेल तेव्हा तेदेखील संपणार आहे आणि हे निर्माण होईल तेव्हा तेदेखील निर्माण होईलच..’ – गौतम बुद्ध

या विश्वाच्या पसाऱ्यात कितीही विविधता आणि नसर्गिकता भासत असली, तरी आपल्या सामान्य ज्ञानक्षमतेच्या पलीकडे एक विशिष्ट सूचिबद्धता आहे, असेच काहीसे बुद्धांना सुचवायचे असेल का? असो. आज विदा-विश्लेषणाचा (डेटा-अ‍ॅनालिटिक्स) शेवटचा अध्याय आणि पुढे अ‍ॅनालिटिक्सचे काही महत्त्वाचे प्रकार आणि संकल्पना पाहू..

(१) संभाव्यता (प्रोबॅबिलिटी) :

संभाव्यता म्हणजे एखादी घटना घडण्याची शक्यता. संभाव्य निकाल म्हणजे अनुकूल परिणाम भागिले एकूण परिणाम. सर्वात सोपे उदाहरण म्हणजे एखाद्या सामन्यासाठीची नाणेफेक; यात ५० टक्के शक्यता छापा पडण्याची, तर ५० टक्के शक्यता काटा पडण्याची. काय घडले होते आणि त्यावरून भविष्यात काय होऊ शकेल, हे सांगणाऱ्या विश्लेषणास ‘प्रेडिक्टिव्ह अ‍ॅनालिटिक्स’ म्हणतात. हे सर्व ‘प्रोबॅबिलिटी थिअरी’वरच तर आधारित आहे. इतकेच काय, संभाव्यतेची संकल्पना, संख्याशास्त्र, कलनशास्त्र वगरे गणितीविज्ञान विदा-विश्लेषणाचे प्रमुख आधारस्तंभ आहेत.

(२) नमुने आणि अंदाज :

प्रचंड विदा (डेटा) संचामधून ठरावीक नमुने घेऊन त्यावरून विश्लेषण केले जाते. चुकीचे नमुने असतील तर चुकीचे विश्लेषण येते. म्हणूनच नमुनेशास्त्र हे अ‍ॅनालिटिक्सचे एक महत्त्वाचे अंग मानले जाते. उदा. भारतातील लोकसंख्या सव्वाशे करोडच्या वर आहे. आता त्यावर विशिष्ट विश्लेषण करायचे झाल्यास नमुने कोणाचे मिळवायचे, हा सर्वात गहन प्रश्न असतो. ‘बिग-डेटा’सारख्या तंत्रामध्ये सरसकट सर्व उपलब्ध विदासंच वापरला जातो.

(३) सहसंबंध (कोरिलेशन) :

‘आर्टिफिशियल इंटेलिजन्स’ अर्थात कृत्रिम प्रज्ञेवरील लेखांत आपण ‘घरांच्या किमती वर्तवणे विरुद्ध घरांबद्दल विविध प्रकारची (जसे घराचे क्षेत्रफळ, मजला, खोल्या इत्यादी घटक) माहिती’ असे उदाहरण बघितले होते. बरेचदा असे घटक हजारोंच्या घरात जातात. विश्लेषण करताना त्यातील कुठले वापरायचे, कुठले एकत्र जोडायचे, कुठले गाळायचे, तसेच कुठल्यांना जास्त महत्त्व द्यायचे, याबद्दलचे शास्त्र म्हणजे ‘कोरिलेशन’ (सहसंबंध)!

(४) लिनीयर रिग्रेशन अल्गॉरिदम :

‘लिनीयर रिग्रेशन’ दोन विदासंचांमध्ये रेषात्मक समीकरण बसवून त्यातील संबंध (उदाहरणार्थ : य = अ + ब x क्ष) मांडते. असले अल्गॉरिदम एका घटकावरून अंदाज (उदा. घराच्या क्षेत्रफळावरून त्याची किंमत), तसेच अनेक घटकांवरून अंदाज (उदा. घराचे क्षेत्रफळ/ खोल्या/ मजला/ दिशा.. आदींवरून किंमत) असे दोन प्रकारचे असतात.

(५) लॉजिस्टिक रिग्रेशन अल्गॉरिदम :

विदेचे वर्गीकरण करण्यासाठी ‘लॉजिस्टिक रिग्रेशन’ हा एक लोकप्रिय अल्गॉरिदम आहे. मूलभूत तंत्र लिनीयर रिग्रेशनसारखेच असून, इथे फक्त लॉग सूत्र वापरले जाते. उदा. रक्तदाब १४०/९०च्या वर असेल, तर रुग्णाला उच्च रक्तदाब (हायपर-टेन्शन) आजार आहे (क्ष = १) आणि रक्तदाब १४०/९०च्या खाली असेल, तर रुग्णाला उच्च रक्तदाब हा आजार नाही आहे (क्ष = ०) अशा दोनच शक्यता असू शकतात. असले शून्य/एक प्रकारचे विदा-विश्लेषण करण्यासाठी ‘लॉजिस्टिक रिग्रेशन’ वापरात येते.

(६) डीसिजन-ट्री अल्गॉरिदम :

प्रचंड विदासंच लहान उपसंचांमध्ये विभागून त्यातून ‘निर्णय-वृक्ष आराखडा’ हळूहळू विकसित केला जातो. अंतिम परिणाम म्हणजे, अनेक शाखा असलेल्या झाडासारख्या दृश्य स्वरूपात विदासंच मांडून त्यावरून नियमावली आणि त्यावरून अंदाज. उदा. शाळेतील विद्यार्थी, अनेक इयत्ता, विविध विषय, त्यातील गुण, वर्ग-शिक्षक.. असा सगळा विदा निर्णय-वृक्षरूपात मांडून विद्यार्थ्यांना दहावीच्या परीक्षेत किती गुण मिळतील, याचा अंदाज वर्तवणे. त्यातील आणखी पुढचा प्रकार म्हणजे- ‘रॅण्डम फॉरेस्ट अल्गॉरिदम’!

(७) डीप लर्निग आर्टिफिशियल न्यूरल नेट (एएनएन) अल्गॉरिदम :

याबद्दल आपण कृत्रिम प्रज्ञे(एआय)वरील लेखांमध्ये सविस्तर चर्चा केली होती. एएनएनमध्ये प्रश्न (य) – उत्तरे (क्ष) असे असंख्य विदासंच एआय अल्गॉरिदमला पुरवून त्यातून ‘य’ आणि ‘क्ष’ यांच्यातील समीकरण शोधले जाते आणि त्यावरून पुढील अंदाज वर्तवला जातो. उदा. गूगल मॅप्स आणि प्रवासाचा वेळ वर्तवणे.

(८) विसंरचित विदा-विश्लेषण :

साधारणपणे विश्लेषण संरचित (स्ट्रक्चर्ड) विदाचेच होते. संरचित विदा म्हणजे ओळींत आणि स्तंभांत व्यवस्थित मांडलेले आकडे. त्याविरुद्ध विसंरचित (अनस्ट्रक्चर्ड) विदा म्हणजे मनुष्याने लिहिलेला मजकूर, संवाद, छायाचित्रे, दृक्मुद्रण, ईमेल संभाषण, फोनवरील संभाषण इत्यादी. त्यांचे विश्लेषण करायचे, तर साधारण विश्लेषण तंत्रज्ञान उपयोगी नाही. ‘डीप-लर्निग आर्टिफिशियल न्यूरल नेट अल्गॉरिदम’ नामक कृत्रिम प्रज्ञेमुळे हल्ली नसर्गिक भाषा/ छायाचित्रे/ दृक्मुद्रण यांचे विश्लेषण शक्य होत आहे. त्यासाठीचा विदासंच मनुष्यबळ वापरूनच तयार होतो आहे. सर्वोत्तम उदाहरण- चालकविरहित गाडीसाठी लागणाऱ्या रस्त्यांचे चित्रीकरण स्ट्रीट-कार्समार्फत करून त्यांचे फोटो-टॅिगग करावे लागते. फोटो-टॅगिंग म्हणजे रस्त्यांच्या दृक्मुद्रणापासून छायाचित्रे, मग त्या छायाचित्रामधील वस्तूंचे मार्किंग करणे.

(९) ईमरसिव्ह अनॅलिटिक्स :

‘डेटा-व्हिज्युअलायझेशन’मधील पहिला टप्पा म्हणजे संगणक/ मोबाइलच्या पडद्यावर २-डी तक्ते सादर करणे. ३-डी दृश्य म्हणजे त्यातील पुढील पायरी. त्यापुढची पायरी म्हणजे ‘ऑग्मेंटेड रिअ‍ॅलिटी’- म्हणजे तेच तक्ते तुमच्यासमोर चक्क‘प्रकट’ झाल्यासारखे दिसणे. त्याला तुम्ही स्वत:च्या बोटांनी हाताळूदेखील शकता. साध्या मोबाइलद्वारा असले ‘प्रकटीकरण’ हल्ली शक्य होत आहे.

पुढे पाहू अ‍ॅनालिटिक्स प्रकल्पातल्या महत्त्वाच्या पायऱ्या.. म्हणजेच ‘डेटा टु इंटेलिजन्स टु अ‍ॅक्शन’चा प्रवास :

(अ) समस्या किंवा स्वप्न (का? किंवा काय?) सुरुवात इथून करावी.

(आ) विदेचा स्रोत.. कुठून, कुठला, कसा विदा मिळवायचा, किती खर्च वगैरे.

(इ) विदा हस्तगत/ एकत्रित करणे. (विदा मिळवणे आणि एका ठिकाणी साठवणे.)

(ई) विदेचे शुद्धीकरण व विघटीकरण

(उ) विदेचे विश्लेषण (वरील अल्गॉरिदम्स वापरून विश्लेषण करणे.)

(ऊ) विदा विश्लेषणाची चाचणी, सुधारणा

(ए) विदा व्हिज्युअलायजेशन (दृश्यरूप २-डी/ ३-डी/ ईमर्सिव्ह)

(ऐ) विदा विश्लेषणापासून संदर्भ, कल (इनसाइट्स व इंटेलिजन्स)

(ओ) इनसाइट्स व इंटेलिजन्सपासून निर्णय वा कृती

(औ) दुरुस्ती, परिष्करण (रिफाइनमेंट्स)

(अं) विश्लेषणापासून मिळालेला व्यावहारिक परिणाम, गुंतवणुकीचा परतावा (बिजनेस व्हॅल्यू)

(अ:) चक्र सुरू – पुन्हा नवीन समस्या किंवा स्वप्न (पुढील प्रवास) आणि अर्थातच काही प्रमुख समस्या :

(अ) येऊ घातलेला बदल, त्यातून निर्माण झालेली भीती, आपले काय होईल याबद्दल चिंता आणि एकंदरीत बदलण्याची अनिच्छा. इथे कुठलेच तंत्रज्ञान कामाला येत नसून वरिष्ठांचे नेतृत्वगुण व गरज पडल्यास साम-दाम-दंड-भेद.

(ब) विदेचा स्रोत हस्तगत करणे, त्यातील सुरक्षा, कायदे व नियम, वैयक्तिक विदा वगैरे अडचणी व विदेची गुणवत्ता, मनुष्यबळ वापरून साफसफाई करण्यास येणारा खर्च.

(क) दुरुस्ती, परिष्करण म्हणजे प्रकल्प कायम सुरू ठेवण्याचा खर्च. मनुष्यबळ, सॉफ्टवेअर परवाना, हार्डवेअर, डेटा-कॅप्चरचा वेगळा खर्च.

(ड) सर्वात प्रमुख म्हणजे विदेपासून इनसाइट्स व इंटेलिजन्स मिळूनही निष्क्रियता आणि निर्णयाचा अभाव आणि म्हणूनच व्यावहारिक परिणाम, गुंतवणुकीचा परतावा शून्य.

‘डेटा इज द न्यू ऑइल’ असे म्हणतात खरे; पण त्या विदा-विश्लेषणापासून निर्णयक्षमता आणि क्रियाशीलता आपल्या दैनंदिन जीवनात आणणे हीच पुढे जाऊन आपले स्पर्धात्मक वैशिष्टय़ व भविष्यातील प्रगतीसाठीची गुंतवणूक ठरेल.

अधिक वाचनासाठी खालील स्थळांना भेट देऊन डेटा-अ‍ॅनालिटिक्सच्या जागतिक स्तरावरील टॉप-फोर कंपन्यांचे प्रॉडक्ट्स हाताळून बघा :

https://powerbi.microsoft.com/en-us/

https://www.qlik.com/us

https://www.thoughtspot.com/

https://www.tableau.com/

आजचा प्रश्न :

मागील लेखात तुम्ही तुमच्या रोजच्या दैनंदिन जीवनातील एखादा प्रश्न, अडचण वा इच्छा, स्वप्न आणि डिस्क्रिप्टिव्ह अ‍ॅनालिटिक्स केलेत. आता पुढे जाऊन प्रेडिक्टिव्ह व प्रिस्क्रिप्टिव्ह कसे कराल, केल्यास काय फायदा होईल, त्याबद्दल कळवा.

hrishikesh.sherlekar@gmail.com

लेखक टाटा कन्सल्टन्सी सव्‍‌र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अ‍ॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत.