संहिता जोशी

‘मशीन लर्निग’चा पुरेपूर वापर जिथं होतो, तिथं भाकितं कमीत कमी चुकावीत यासाठी प्रारूपं बदलावी लागतात..

Clean Intestine In 20 Minutes In Morning With These Simple Five Asanas How Much Luke Warm Water To Drink First After Waking Up
Video: सकाळी उठताच १५ मिनिटांत पोट स्वच्छ होण्यासाठी करा ‘या’ पाच कृती; कोमट पाणी पिण्याचं प्रमाणही पाहा
how to use coconut oil
पांढऱ्या केसांपासून सुटका मिळवण्यासाठी ‘हे’ तेल वापरून पाहा, तेलात फक्त मेथी दाणे टाकून करा केसांची मालिश
Why a sunscreen over SPF 50 is still the best bet for the beach
तुम्हीही उन्हात जाताना ‘SPF 50’ सनस्क्रीन वापरताय का? मग त्वचारोग तज्ज्ञ काय सांगतात वाचाच
People with diabetes Can Eat roasted or baked snacks Is this safe for blood sugar patients Need To Know What To Eat
मधुमेही रुग्णांनी ‘या’ पदार्थाचे सेवन केल्यास नियंत्रित राहील रक्तातील साखर; वाचा तज्ज्ञ काय सांगतात…

विदाविज्ञानात (डेटा सायन्स) वेगवेगळ्या प्रकारची प्रारूपं (मॉडेल्स) असतात. वेगळं प्रारूप म्हणजे त्यामागची गणिती संकल्पनाच पूर्णतया निराळी असते. दोन आठवडय़ांपूर्वी ज्या निर्णयवृक्ष (डिसिजन ट्री) या प्रारूपाबद्दल लिहिलं होतं, त्यात आणखी गुंतागुंत वाढून आणखी चांगली प्रारूपं वापरात आहेत. प्रारूपांचे आणखीही बरेच प्रकार आहेत. पण ‘आणखी चांगलं प्रारूप’ म्हणजे काय?

या मशीन लर्निंग प्रारूपांचं काम असतं, विदेतला पॅटर्न, तोच-तोचपणा ओळखून भाकितं करणं. भाकितांचे प्रकार निरनिराळे असतात. घराचा आकार किती, घर कुठे आहे, कधी बांधलेलं आहे, सध्याचा बाजारभाव काय, अशी विदा वापरून घराची किंमत किती असेल याचं भाकीत असेल. त्यातही घराची किंमत बदलती असते; जास्तीत जास्त किती किंमत लावली तर घर वेळेत विकलं जाईल, याचं भाकीत करणं महत्त्वाचं. गूगल करायला गेल्यावर, एक-दोन शब्द टंकल्यावर पुढचा शब्द काय असेल याची १० भाकितं गूगल आपल्याला दाखवतं.

या दोन प्रकारच्या भाकितांमध्ये फरक आहे. घराची किंमत किती असणार याच्या (योग्य-अयोग्य) असंख्य शक्यता आहेत. शून्यापासून कोटय़वधी रुपयांपर्यंत कोणताही आकडा घराची किंमत असू शकतो. गूगल जेव्हा पुढचा शब्द सुचवतं तेव्हा त्यातही खूप शक्यता आहेत; तिसरं उदाहरण घेता येईल, वैद्यकीय स्कॅनचं. शरीरातली एखादी गाठ कर्करोगाची आहे का, घातक आहे का, या प्रश्नाचं उत्तर हो किंवा नाही एवढंच असतं. मशीन लर्निंगच्या निरनिराळ्या पद्धती वापरून अशा सगळ्या प्रकारची भाकितं करता येतात.

यांतल्या घराच्या किमतींसारखी, जिथे सलग आकडे भाकितांमध्ये असतात, ती किती चूक-बरोबर हे ठरवायचं असेल तर घर कितीला विकलं गेलं आणि भाकीत यांत किती फरक आहे हे सरळ मोजता येतं; त्याची टक्केवारी, सरासरी काढणं अशा सोप्या सांख्यिकी युक्त्या वापरता येतात. पण जेव्हा कर्करोगाचं निदान करायचं असेल; किंवा गूगलनं सुचवलेल्या दहा शब्दांपैकी एक वापरला गेला का, तेव्हा भाकितं किती योग्य आली हे कसं मोजायचं?

या दुसऱ्या प्रकारच्या भाकितांना विवक्षित (डिस्क्रीट) अंदाजपद्धती म्हणता येईल. कर्करोगाचं उदाहरण बघितलं तर, जे लोक गाठींचे स्कॅन्स करायला येतात, त्यांतल्या बहुतेकांना कर्करोग नसतो. समजा ९० टक्के गाठी साध्या असतात; आणि आपल्या प्रारूपानं जर सगळ्याच गाठी साध्या आहेत असं भाकीत केलं तर ते भाकीत ९० टक्के अचूक आहे असं म्हणता येईल; फक्त १० टक्के भाकितं चुकली. पण असं भाकीत निरुपयोगी आहे. म्हणजे कर्करोगाच्या गाठींपैकी किती अचूक ओळखल्या याला महत्त्व दिलं पाहिजे.

अशा विवक्षित भाकितांचं आपल्या परिचयाचं आणखी एक उदाहरण म्हणजे स्पॅम ईमेल शोधणं. साधारण पंधरा वर्षांपूर्वी मला ५्र@ॠ१ं असं काही लिहिलेली ईमेलं आठवडय़ातून एकदा तरी येत असत. किंवा तेव्हा ईमेलं वापरणाऱ्या लोकांना कोणाचे तरी श्रीमंत काका-मामा नायजेरियात मेल्यावर सापडले असतीलच; मला खात्री आहे. आता अशी ईमेलं येत नाहीत. ईमेलांतला मजकूर ही विदा (डेटा) वापरली जाते. ती वापरून मशीन लर्निंगची प्रारूपं तयार केली जातात. सेवादाते यांतून स्पॅम किंवा चुकार ईमेलं कोणती हे बरोबर ओळखतात आणि ती ईमेलं आपल्यापर्यंत पोहोचण्याआधीच चाळणी लावून टाकतात.

या दोन्ही उदाहरणांतला फरक पाहा. कर्करोग असलेल्या गाठींची संख्या खूप कमी असते आणि साध्या गाठींची बरीच जास्त; पण सगळ्या कर्करोगाच्या गाठी ओळखणं महत्त्वाचं आहे. वेळेत कर्करोगाचं निदान झालं तर व्यक्तीचा जीव वाचण्याची शक्यता वाढते. चुकून एखाद्या साध्या गाठीचं निदान कर्करोग म्हणून झालं तरी चालेल. पुढच्या चाचण्या करून गाठ साधी असल्याचं समजेलच.

ईमेलांमध्येही चुकार ईमेलची संख्या, प्रमाण खूप कमी असतं आणि निरुपद्रवी, कामाची ईमेलं जास्त असतात. पण कामाचं, निरुपद्रवी ईमेल चुकून स्पॅममध्ये जाऊन चालणार नाही. एखादं चुकार ईमेल कामाच्या ईमेलांत आलं तरी हरकत नसते.

मशीन लर्निंगच्या कोणत्याही प्रारूपाची भाकितं १०० टक्के अचूक येत नाहीत. (तसं असेल तर निश्चित काही मानवी चूक आहे आणि ती सुधारण्याची गरज आहे. किंवा मशीन लर्निंग वापरून अगदीच सोपे प्रश्न सोडवले जात आहेत.) चुका होणारच असतील तर कोणत्या प्रकारच्या चुका चालून जातील आणि कोणत्या प्रकारच्या चुका शक्यतोवर टाळल्या पाहिजेत, हे प्रश्नानुसार बदलतं. आधीची दोन उदाहरणं पाहा : कर्करोगाच्या गाठी आणि स्पॅम ईमेलं दोन्हींचं प्रमाण कमी असतं. हे दोन्ही प्रश्न हो-का-नाही किंवा ०/१ प्रकारचे आहेत. साधी गाठ किंवा कामाचं ईमेल म्हणजे ० आणि कर्करोग किंवा स्पॅम म्हणजे १. कर्करोग शोधताना ० (साधी गाठ) प्रकारचं वर्गीकरण चुकून १ (कर्करोग आहे) असं झालेलं चालेल; पण स्पॅम शोधताना याच्या बरोबर उलट. कामाचं ईमेल म्हणजे ०, याचं वर्गीकरण चुकून १ (स्पॅम) होण्यापेक्षा उलट चूक झालेली चालेल.

भाकितं किती अचूक आहेत याची गोळाबेरीज टक्केवारी काढण्याऐवजी, आपल्या प्रश्नानुसार कोणत्या प्रकारच्या चुका किती आहेत, याची टक्केवारी मोजली जाते. कर्करोग शोधताना किती टक्के घातक गाठींचं निदान चुकीचं झालं आणि स्पॅम शोधताना किती टक्के कामाची ईमेलं स्पॅम मोजली गेली हे शोधलं जातं. ही टक्केवारी जेवढी कमी तेवढं प्रारूप अधिक उपयुक्त, चांगलं.

निर्णयवृक्ष, न्यूरल नेटवर्क असतात तशी इतरही अनेक प्रकारची प्रारूपं विदाविज्ञानात वापरली जातात. यांत अनेकदा भाकितं किती चांगली हाच मुद्दा महत्त्वाचा असतो; पण जेव्हा एखाद्या अर्जदाराला कर्ज किंवा क्रेडिट कार्ड (ना)मंजूर करायचं असतं तेव्हा ते भाकीत का केलं याचं स्पष्टीकरण देणंही गरजेचं असतं; अशा ठिकाणी न्यूरल नेटवर्क्‍स कधीही वापरली जात नाहीत; त्यांचं स्पष्टीकरण देणं कठीण असतं. कधी विदा खूप जास्त असते (बिग डेटा), कधी खूपच कमी असते. काही प्रकारची प्रारूपं बनवण्यासाठी खूप वेळ लागतो; आणि आपल्याला ताबडतोब उत्तर हवं असतं.

वरच्या उदाहरणांमध्येच पाहा; कर्करोगाचं निदान समजण्यासाठी दोन तास लागले तरी चालतात; पण ईमेल कामाचं आहे की स्पॅम हे काही मायक्रोसेकंदांमध्येच ठरवावं लागतं. गूगलताना, एक-दोन शब्द टंकल्यावर पुढचे शब्द काय असतील याचे दहा अंदाज क्षणार्धात दाखवले जातात. स्वयंचलित गाडय़ा चालवतानाही हे निर्णय अतिशय चटकन घ्यावे लागतात. अशा गाडीला समोर माणूस आहे का, गाडी आहे का, सिग्नल हिरवा आहे का, गाडी लेनमध्ये आहे का, असे अनेक निर्णय चटचट घ्यावे लागतात.

या सगळ्याच्या मुळाशी सांख्यिकी, गणित आणि संगणकशास्त्र आहे. विदाविज्ञान, कृत्रिम प्रज्ञा (ए.आय.) यांचा व्यापारी उपयोग करणं शक्य नव्हतं तोवर ते फक्त विद्यापीठीय संशोधनापुरतं मर्यादित होतं. हे तंत्रज्ञान आपल्या सगळ्यांच्या, सर्वसामान्य आयुष्यांपासून लांब होतं. आता मात्र आपल्याला ईमेलमध्ये, फेसबुक-ट्विटरवर काय दिसतं, इथपासून कोणत्या रसायनांची पुढे औषधं बनतात, कर्करोगाचं निदान डॉक्टरच्या डोळ्यांना होण्याच्या आधी होतं; ईमेलांपासून कर्करोगापर्यंत आणि परिणामत: आपला खासगीपणा, मूल्यं, नीतिमत्ता, आयुष्याची प्रत या सगळ्याशी विदाविज्ञानाचा संबंध येत आहे.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com