18 July 2019

News Flash

भाकीत चुकणारच; पण..

‘मशीन लर्निग’चा पुरेपूर वापर जिथं होतो, तिथं भाकितं कमीत कमी चुकावीत यासाठी प्रारूपं बदलावी लागतात..

(संग्रहित छायाचित्र)

संहिता जोशी

‘मशीन लर्निग’चा पुरेपूर वापर जिथं होतो, तिथं भाकितं कमीत कमी चुकावीत यासाठी प्रारूपं बदलावी लागतात..

विदाविज्ञानात (डेटा सायन्स) वेगवेगळ्या प्रकारची प्रारूपं (मॉडेल्स) असतात. वेगळं प्रारूप म्हणजे त्यामागची गणिती संकल्पनाच पूर्णतया निराळी असते. दोन आठवडय़ांपूर्वी ज्या निर्णयवृक्ष (डिसिजन ट्री) या प्रारूपाबद्दल लिहिलं होतं, त्यात आणखी गुंतागुंत वाढून आणखी चांगली प्रारूपं वापरात आहेत. प्रारूपांचे आणखीही बरेच प्रकार आहेत. पण ‘आणखी चांगलं प्रारूप’ म्हणजे काय?

या मशीन लर्निंग प्रारूपांचं काम असतं, विदेतला पॅटर्न, तोच-तोचपणा ओळखून भाकितं करणं. भाकितांचे प्रकार निरनिराळे असतात. घराचा आकार किती, घर कुठे आहे, कधी बांधलेलं आहे, सध्याचा बाजारभाव काय, अशी विदा वापरून घराची किंमत किती असेल याचं भाकीत असेल. त्यातही घराची किंमत बदलती असते; जास्तीत जास्त किती किंमत लावली तर घर वेळेत विकलं जाईल, याचं भाकीत करणं महत्त्वाचं. गूगल करायला गेल्यावर, एक-दोन शब्द टंकल्यावर पुढचा शब्द काय असेल याची १० भाकितं गूगल आपल्याला दाखवतं.

या दोन प्रकारच्या भाकितांमध्ये फरक आहे. घराची किंमत किती असणार याच्या (योग्य-अयोग्य) असंख्य शक्यता आहेत. शून्यापासून कोटय़वधी रुपयांपर्यंत कोणताही आकडा घराची किंमत असू शकतो. गूगल जेव्हा पुढचा शब्द सुचवतं तेव्हा त्यातही खूप शक्यता आहेत; तिसरं उदाहरण घेता येईल, वैद्यकीय स्कॅनचं. शरीरातली एखादी गाठ कर्करोगाची आहे का, घातक आहे का, या प्रश्नाचं उत्तर हो किंवा नाही एवढंच असतं. मशीन लर्निंगच्या निरनिराळ्या पद्धती वापरून अशा सगळ्या प्रकारची भाकितं करता येतात.

यांतल्या घराच्या किमतींसारखी, जिथे सलग आकडे भाकितांमध्ये असतात, ती किती चूक-बरोबर हे ठरवायचं असेल तर घर कितीला विकलं गेलं आणि भाकीत यांत किती फरक आहे हे सरळ मोजता येतं; त्याची टक्केवारी, सरासरी काढणं अशा सोप्या सांख्यिकी युक्त्या वापरता येतात. पण जेव्हा कर्करोगाचं निदान करायचं असेल; किंवा गूगलनं सुचवलेल्या दहा शब्दांपैकी एक वापरला गेला का, तेव्हा भाकितं किती योग्य आली हे कसं मोजायचं?

या दुसऱ्या प्रकारच्या भाकितांना विवक्षित (डिस्क्रीट) अंदाजपद्धती म्हणता येईल. कर्करोगाचं उदाहरण बघितलं तर, जे लोक गाठींचे स्कॅन्स करायला येतात, त्यांतल्या बहुतेकांना कर्करोग नसतो. समजा ९० टक्के गाठी साध्या असतात; आणि आपल्या प्रारूपानं जर सगळ्याच गाठी साध्या आहेत असं भाकीत केलं तर ते भाकीत ९० टक्के अचूक आहे असं म्हणता येईल; फक्त १० टक्के भाकितं चुकली. पण असं भाकीत निरुपयोगी आहे. म्हणजे कर्करोगाच्या गाठींपैकी किती अचूक ओळखल्या याला महत्त्व दिलं पाहिजे.

अशा विवक्षित भाकितांचं आपल्या परिचयाचं आणखी एक उदाहरण म्हणजे स्पॅम ईमेल शोधणं. साधारण पंधरा वर्षांपूर्वी मला ५्र@ॠ१ं असं काही लिहिलेली ईमेलं आठवडय़ातून एकदा तरी येत असत. किंवा तेव्हा ईमेलं वापरणाऱ्या लोकांना कोणाचे तरी श्रीमंत काका-मामा नायजेरियात मेल्यावर सापडले असतीलच; मला खात्री आहे. आता अशी ईमेलं येत नाहीत. ईमेलांतला मजकूर ही विदा (डेटा) वापरली जाते. ती वापरून मशीन लर्निंगची प्रारूपं तयार केली जातात. सेवादाते यांतून स्पॅम किंवा चुकार ईमेलं कोणती हे बरोबर ओळखतात आणि ती ईमेलं आपल्यापर्यंत पोहोचण्याआधीच चाळणी लावून टाकतात.

या दोन्ही उदाहरणांतला फरक पाहा. कर्करोग असलेल्या गाठींची संख्या खूप कमी असते आणि साध्या गाठींची बरीच जास्त; पण सगळ्या कर्करोगाच्या गाठी ओळखणं महत्त्वाचं आहे. वेळेत कर्करोगाचं निदान झालं तर व्यक्तीचा जीव वाचण्याची शक्यता वाढते. चुकून एखाद्या साध्या गाठीचं निदान कर्करोग म्हणून झालं तरी चालेल. पुढच्या चाचण्या करून गाठ साधी असल्याचं समजेलच.

ईमेलांमध्येही चुकार ईमेलची संख्या, प्रमाण खूप कमी असतं आणि निरुपद्रवी, कामाची ईमेलं जास्त असतात. पण कामाचं, निरुपद्रवी ईमेल चुकून स्पॅममध्ये जाऊन चालणार नाही. एखादं चुकार ईमेल कामाच्या ईमेलांत आलं तरी हरकत नसते.

मशीन लर्निंगच्या कोणत्याही प्रारूपाची भाकितं १०० टक्के अचूक येत नाहीत. (तसं असेल तर निश्चित काही मानवी चूक आहे आणि ती सुधारण्याची गरज आहे. किंवा मशीन लर्निंग वापरून अगदीच सोपे प्रश्न सोडवले जात आहेत.) चुका होणारच असतील तर कोणत्या प्रकारच्या चुका चालून जातील आणि कोणत्या प्रकारच्या चुका शक्यतोवर टाळल्या पाहिजेत, हे प्रश्नानुसार बदलतं. आधीची दोन उदाहरणं पाहा : कर्करोगाच्या गाठी आणि स्पॅम ईमेलं दोन्हींचं प्रमाण कमी असतं. हे दोन्ही प्रश्न हो-का-नाही किंवा ०/१ प्रकारचे आहेत. साधी गाठ किंवा कामाचं ईमेल म्हणजे ० आणि कर्करोग किंवा स्पॅम म्हणजे १. कर्करोग शोधताना ० (साधी गाठ) प्रकारचं वर्गीकरण चुकून १ (कर्करोग आहे) असं झालेलं चालेल; पण स्पॅम शोधताना याच्या बरोबर उलट. कामाचं ईमेल म्हणजे ०, याचं वर्गीकरण चुकून १ (स्पॅम) होण्यापेक्षा उलट चूक झालेली चालेल.

भाकितं किती अचूक आहेत याची गोळाबेरीज टक्केवारी काढण्याऐवजी, आपल्या प्रश्नानुसार कोणत्या प्रकारच्या चुका किती आहेत, याची टक्केवारी मोजली जाते. कर्करोग शोधताना किती टक्के घातक गाठींचं निदान चुकीचं झालं आणि स्पॅम शोधताना किती टक्के कामाची ईमेलं स्पॅम मोजली गेली हे शोधलं जातं. ही टक्केवारी जेवढी कमी तेवढं प्रारूप अधिक उपयुक्त, चांगलं.

निर्णयवृक्ष, न्यूरल नेटवर्क असतात तशी इतरही अनेक प्रकारची प्रारूपं विदाविज्ञानात वापरली जातात. यांत अनेकदा भाकितं किती चांगली हाच मुद्दा महत्त्वाचा असतो; पण जेव्हा एखाद्या अर्जदाराला कर्ज किंवा क्रेडिट कार्ड (ना)मंजूर करायचं असतं तेव्हा ते भाकीत का केलं याचं स्पष्टीकरण देणंही गरजेचं असतं; अशा ठिकाणी न्यूरल नेटवर्क्‍स कधीही वापरली जात नाहीत; त्यांचं स्पष्टीकरण देणं कठीण असतं. कधी विदा खूप जास्त असते (बिग डेटा), कधी खूपच कमी असते. काही प्रकारची प्रारूपं बनवण्यासाठी खूप वेळ लागतो; आणि आपल्याला ताबडतोब उत्तर हवं असतं.

वरच्या उदाहरणांमध्येच पाहा; कर्करोगाचं निदान समजण्यासाठी दोन तास लागले तरी चालतात; पण ईमेल कामाचं आहे की स्पॅम हे काही मायक्रोसेकंदांमध्येच ठरवावं लागतं. गूगलताना, एक-दोन शब्द टंकल्यावर पुढचे शब्द काय असतील याचे दहा अंदाज क्षणार्धात दाखवले जातात. स्वयंचलित गाडय़ा चालवतानाही हे निर्णय अतिशय चटकन घ्यावे लागतात. अशा गाडीला समोर माणूस आहे का, गाडी आहे का, सिग्नल हिरवा आहे का, गाडी लेनमध्ये आहे का, असे अनेक निर्णय चटचट घ्यावे लागतात.

या सगळ्याच्या मुळाशी सांख्यिकी, गणित आणि संगणकशास्त्र आहे. विदाविज्ञान, कृत्रिम प्रज्ञा (ए.आय.) यांचा व्यापारी उपयोग करणं शक्य नव्हतं तोवर ते फक्त विद्यापीठीय संशोधनापुरतं मर्यादित होतं. हे तंत्रज्ञान आपल्या सगळ्यांच्या, सर्वसामान्य आयुष्यांपासून लांब होतं. आता मात्र आपल्याला ईमेलमध्ये, फेसबुक-ट्विटरवर काय दिसतं, इथपासून कोणत्या रसायनांची पुढे औषधं बनतात, कर्करोगाचं निदान डॉक्टरच्या डोळ्यांना होण्याच्या आधी होतं; ईमेलांपासून कर्करोगापर्यंत आणि परिणामत: आपला खासगीपणा, मूल्यं, नीतिमत्ता, आयुष्याची प्रत या सगळ्याशी विदाविज्ञानाचा संबंध येत आहे.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com

First Published on July 10, 2019 12:12 am

Web Title: machine learning data science sanhita joshi abn 97