संहिता जोशी

‘मशीन लर्निग’चा पुरेपूर वापर जिथं होतो, तिथं भाकितं कमीत कमी चुकावीत यासाठी प्रारूपं बदलावी लागतात..

Bombil Khengat Recipe In Marathi bombil fish recipe in marathi
“बोंबलाचे खेंगाट” गृहिणींनो ‘ही’ रेसिपी एकदा नक्की ट्राय करा; केस गळती होईल कायमची दूर
Skin care tips jaggery face pack helpful to glowing your skin
चेहऱ्यावर सुरकुत्या दिसू लागल्या? गुळाचा करा खास वापर; त्वचा दिसेल तरुण- चमकदार
How to Identify Chemically Injected Watermelon FSSAI Suggestion
कलिंगड सुया टोचून, पावडर घालून पिकवलाय का हे एका झटक्यात ओळखा; ‘या’ खुणा पाहूनच करा खरेदी
Overhydration: This is what happens if you drink too much water What Is Overhydration
सावधान.! जास्त पाणी पिणे आरोग्यासाठी ठरते धोकादायक; वजनानुसार दररोज किती पाणी प्यावे?

विदाविज्ञानात (डेटा सायन्स) वेगवेगळ्या प्रकारची प्रारूपं (मॉडेल्स) असतात. वेगळं प्रारूप म्हणजे त्यामागची गणिती संकल्पनाच पूर्णतया निराळी असते. दोन आठवडय़ांपूर्वी ज्या निर्णयवृक्ष (डिसिजन ट्री) या प्रारूपाबद्दल लिहिलं होतं, त्यात आणखी गुंतागुंत वाढून आणखी चांगली प्रारूपं वापरात आहेत. प्रारूपांचे आणखीही बरेच प्रकार आहेत. पण ‘आणखी चांगलं प्रारूप’ म्हणजे काय?

या मशीन लर्निंग प्रारूपांचं काम असतं, विदेतला पॅटर्न, तोच-तोचपणा ओळखून भाकितं करणं. भाकितांचे प्रकार निरनिराळे असतात. घराचा आकार किती, घर कुठे आहे, कधी बांधलेलं आहे, सध्याचा बाजारभाव काय, अशी विदा वापरून घराची किंमत किती असेल याचं भाकीत असेल. त्यातही घराची किंमत बदलती असते; जास्तीत जास्त किती किंमत लावली तर घर वेळेत विकलं जाईल, याचं भाकीत करणं महत्त्वाचं. गूगल करायला गेल्यावर, एक-दोन शब्द टंकल्यावर पुढचा शब्द काय असेल याची १० भाकितं गूगल आपल्याला दाखवतं.

या दोन प्रकारच्या भाकितांमध्ये फरक आहे. घराची किंमत किती असणार याच्या (योग्य-अयोग्य) असंख्य शक्यता आहेत. शून्यापासून कोटय़वधी रुपयांपर्यंत कोणताही आकडा घराची किंमत असू शकतो. गूगल जेव्हा पुढचा शब्द सुचवतं तेव्हा त्यातही खूप शक्यता आहेत; तिसरं उदाहरण घेता येईल, वैद्यकीय स्कॅनचं. शरीरातली एखादी गाठ कर्करोगाची आहे का, घातक आहे का, या प्रश्नाचं उत्तर हो किंवा नाही एवढंच असतं. मशीन लर्निंगच्या निरनिराळ्या पद्धती वापरून अशा सगळ्या प्रकारची भाकितं करता येतात.

यांतल्या घराच्या किमतींसारखी, जिथे सलग आकडे भाकितांमध्ये असतात, ती किती चूक-बरोबर हे ठरवायचं असेल तर घर कितीला विकलं गेलं आणि भाकीत यांत किती फरक आहे हे सरळ मोजता येतं; त्याची टक्केवारी, सरासरी काढणं अशा सोप्या सांख्यिकी युक्त्या वापरता येतात. पण जेव्हा कर्करोगाचं निदान करायचं असेल; किंवा गूगलनं सुचवलेल्या दहा शब्दांपैकी एक वापरला गेला का, तेव्हा भाकितं किती योग्य आली हे कसं मोजायचं?

या दुसऱ्या प्रकारच्या भाकितांना विवक्षित (डिस्क्रीट) अंदाजपद्धती म्हणता येईल. कर्करोगाचं उदाहरण बघितलं तर, जे लोक गाठींचे स्कॅन्स करायला येतात, त्यांतल्या बहुतेकांना कर्करोग नसतो. समजा ९० टक्के गाठी साध्या असतात; आणि आपल्या प्रारूपानं जर सगळ्याच गाठी साध्या आहेत असं भाकीत केलं तर ते भाकीत ९० टक्के अचूक आहे असं म्हणता येईल; फक्त १० टक्के भाकितं चुकली. पण असं भाकीत निरुपयोगी आहे. म्हणजे कर्करोगाच्या गाठींपैकी किती अचूक ओळखल्या याला महत्त्व दिलं पाहिजे.

अशा विवक्षित भाकितांचं आपल्या परिचयाचं आणखी एक उदाहरण म्हणजे स्पॅम ईमेल शोधणं. साधारण पंधरा वर्षांपूर्वी मला ५्र@ॠ१ं असं काही लिहिलेली ईमेलं आठवडय़ातून एकदा तरी येत असत. किंवा तेव्हा ईमेलं वापरणाऱ्या लोकांना कोणाचे तरी श्रीमंत काका-मामा नायजेरियात मेल्यावर सापडले असतीलच; मला खात्री आहे. आता अशी ईमेलं येत नाहीत. ईमेलांतला मजकूर ही विदा (डेटा) वापरली जाते. ती वापरून मशीन लर्निंगची प्रारूपं तयार केली जातात. सेवादाते यांतून स्पॅम किंवा चुकार ईमेलं कोणती हे बरोबर ओळखतात आणि ती ईमेलं आपल्यापर्यंत पोहोचण्याआधीच चाळणी लावून टाकतात.

या दोन्ही उदाहरणांतला फरक पाहा. कर्करोग असलेल्या गाठींची संख्या खूप कमी असते आणि साध्या गाठींची बरीच जास्त; पण सगळ्या कर्करोगाच्या गाठी ओळखणं महत्त्वाचं आहे. वेळेत कर्करोगाचं निदान झालं तर व्यक्तीचा जीव वाचण्याची शक्यता वाढते. चुकून एखाद्या साध्या गाठीचं निदान कर्करोग म्हणून झालं तरी चालेल. पुढच्या चाचण्या करून गाठ साधी असल्याचं समजेलच.

ईमेलांमध्येही चुकार ईमेलची संख्या, प्रमाण खूप कमी असतं आणि निरुपद्रवी, कामाची ईमेलं जास्त असतात. पण कामाचं, निरुपद्रवी ईमेल चुकून स्पॅममध्ये जाऊन चालणार नाही. एखादं चुकार ईमेल कामाच्या ईमेलांत आलं तरी हरकत नसते.

मशीन लर्निंगच्या कोणत्याही प्रारूपाची भाकितं १०० टक्के अचूक येत नाहीत. (तसं असेल तर निश्चित काही मानवी चूक आहे आणि ती सुधारण्याची गरज आहे. किंवा मशीन लर्निंग वापरून अगदीच सोपे प्रश्न सोडवले जात आहेत.) चुका होणारच असतील तर कोणत्या प्रकारच्या चुका चालून जातील आणि कोणत्या प्रकारच्या चुका शक्यतोवर टाळल्या पाहिजेत, हे प्रश्नानुसार बदलतं. आधीची दोन उदाहरणं पाहा : कर्करोगाच्या गाठी आणि स्पॅम ईमेलं दोन्हींचं प्रमाण कमी असतं. हे दोन्ही प्रश्न हो-का-नाही किंवा ०/१ प्रकारचे आहेत. साधी गाठ किंवा कामाचं ईमेल म्हणजे ० आणि कर्करोग किंवा स्पॅम म्हणजे १. कर्करोग शोधताना ० (साधी गाठ) प्रकारचं वर्गीकरण चुकून १ (कर्करोग आहे) असं झालेलं चालेल; पण स्पॅम शोधताना याच्या बरोबर उलट. कामाचं ईमेल म्हणजे ०, याचं वर्गीकरण चुकून १ (स्पॅम) होण्यापेक्षा उलट चूक झालेली चालेल.

भाकितं किती अचूक आहेत याची गोळाबेरीज टक्केवारी काढण्याऐवजी, आपल्या प्रश्नानुसार कोणत्या प्रकारच्या चुका किती आहेत, याची टक्केवारी मोजली जाते. कर्करोग शोधताना किती टक्के घातक गाठींचं निदान चुकीचं झालं आणि स्पॅम शोधताना किती टक्के कामाची ईमेलं स्पॅम मोजली गेली हे शोधलं जातं. ही टक्केवारी जेवढी कमी तेवढं प्रारूप अधिक उपयुक्त, चांगलं.

निर्णयवृक्ष, न्यूरल नेटवर्क असतात तशी इतरही अनेक प्रकारची प्रारूपं विदाविज्ञानात वापरली जातात. यांत अनेकदा भाकितं किती चांगली हाच मुद्दा महत्त्वाचा असतो; पण जेव्हा एखाद्या अर्जदाराला कर्ज किंवा क्रेडिट कार्ड (ना)मंजूर करायचं असतं तेव्हा ते भाकीत का केलं याचं स्पष्टीकरण देणंही गरजेचं असतं; अशा ठिकाणी न्यूरल नेटवर्क्‍स कधीही वापरली जात नाहीत; त्यांचं स्पष्टीकरण देणं कठीण असतं. कधी विदा खूप जास्त असते (बिग डेटा), कधी खूपच कमी असते. काही प्रकारची प्रारूपं बनवण्यासाठी खूप वेळ लागतो; आणि आपल्याला ताबडतोब उत्तर हवं असतं.

वरच्या उदाहरणांमध्येच पाहा; कर्करोगाचं निदान समजण्यासाठी दोन तास लागले तरी चालतात; पण ईमेल कामाचं आहे की स्पॅम हे काही मायक्रोसेकंदांमध्येच ठरवावं लागतं. गूगलताना, एक-दोन शब्द टंकल्यावर पुढचे शब्द काय असतील याचे दहा अंदाज क्षणार्धात दाखवले जातात. स्वयंचलित गाडय़ा चालवतानाही हे निर्णय अतिशय चटकन घ्यावे लागतात. अशा गाडीला समोर माणूस आहे का, गाडी आहे का, सिग्नल हिरवा आहे का, गाडी लेनमध्ये आहे का, असे अनेक निर्णय चटचट घ्यावे लागतात.

या सगळ्याच्या मुळाशी सांख्यिकी, गणित आणि संगणकशास्त्र आहे. विदाविज्ञान, कृत्रिम प्रज्ञा (ए.आय.) यांचा व्यापारी उपयोग करणं शक्य नव्हतं तोवर ते फक्त विद्यापीठीय संशोधनापुरतं मर्यादित होतं. हे तंत्रज्ञान आपल्या सगळ्यांच्या, सर्वसामान्य आयुष्यांपासून लांब होतं. आता मात्र आपल्याला ईमेलमध्ये, फेसबुक-ट्विटरवर काय दिसतं, इथपासून कोणत्या रसायनांची पुढे औषधं बनतात, कर्करोगाचं निदान डॉक्टरच्या डोळ्यांना होण्याच्या आधी होतं; ईमेलांपासून कर्करोगापर्यंत आणि परिणामत: आपला खासगीपणा, मूल्यं, नीतिमत्ता, आयुष्याची प्रत या सगळ्याशी विदाविज्ञानाचा संबंध येत आहे.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com