|| हृषिकेश दत्ताराम शेर्लेकर

कृत्रिम प्रज्ञा (एआय) म्हणजे मशीनच्या माध्यमातून शिकायचे, असा सर्वसाधारण समज आहे. त्यासाठीच याच्या विविध शाखा व त्याचे शास्त्र जाणून घेणे गरजेचे आहे.

काही दिवसांपूर्वी,  म्हणजे ११ फेब्रुवारी रोजी एआयच्या इतिहासातील एक नवीन सुवर्ण अध्याय लिहिला गेला. आयबीएम रिसर्चच्या ‘मिस डिबेटर’ नामक एआय मशीनने माणसाबरोबर इतिहासात सर्वप्रथमच मॅन-टू-मशीन वादविवाद केला. प्रतिस्पर्धी होते हरीश नटराजन. ते जगातले एक सर्वोत्कृष्ट विवादपटू म्हणून ओळखले जातात. दोघांना फक्त पंधरा मिनिटे आधी ‘प्रीस्कूल शाळांना सबसिडी योग्य की अयोग्य?’ हा चर्चेचा विषय देण्यात आला. त्यानंतर प्रत्येकी चार मिनिटे दोघांनी आपले मुद्दे सविस्तरपणे मांडले. पुढच्या फेरीत दोघांनी प्रतिस्पध्र्याचा युक्तिवाद खोडून काढण्याचा प्रयत्न नवीन मुद्दे मांडून केला व शेवटच्या फेरीत अंतिम विश्लेषण, सारांश मांडला. मिस डिबेटरने हे सर्व करताना फक्त पंधरा मिनिटांत या विषयावरचे अब्जावधी वृत्तपत्र-लेख, बातम्या, विविध लोकांनी मांडलेली मते, व्हिडीओ इत्यादी वाचून, त्याचा सारांश काढून, एका योग्य क्रमात आपले मुद्दे रचून, ते कुठेही न अडखळता, एका विद्यार्थ्यांने स्पर्धेत भाषण द्यावे अशा आत्मविश्वासाने सादरीकरण केले. परत समोरच्याचे म्हणणे खोडून काढण्यासाठी नवीन मुद्देही शोधले, अगदी मनुष्यासारखे! याबद्दलचा व्हिडीओ जरूर पहा.

https://www.youtube.com/watch?v=m3u-1yttrVw असो. मागील अध्यायावरून पुढे. बरेचदा प्रश्न विचारले जातात की एआय म्हणजेच मशीन लर्निग की नाही? डीप-लर्निग व मशीन लर्निगमधील फरक काय? म्हणूनच एक सर्वमान्य असा आराखडा, विविध शाखा आणि त्यांचे शास्त्र, महत्त्व जाणून घेऊ. एआयच्या शाखा खालीलप्रमाणे.

१) मशीन लर्निग,  १.१) अनॅलिटिक्स

१.२) डीप लर्निग (आर्टिफिशियल नुएरल नेटवर्क्‍स ), १.२.१) कोन्वोलूशनल नुएरल नेटवर्क्‍स, १.२.२) रिकरंट नुएरल नेटवर्क्‍स,२) नॅच्युरल लँग्वेज प्रोसेसिंग, २.१) इन्फॉर्मेशन एक्स्ट्रॅक्शन,२.२) लँग्वेज ट्रान्सलेशन, २.३) क्लासिफिकेशन, ३) स्पीच रेकग्निशन, ३.१) स्पीच टू टेक्स्ट ३.२) टेक्स्ट टू स्पीच ४) रोबोटिक्स, एक्स्पर्ट सिस्टीम्स, प्लॅनिंग  ५) कॉम्प्युटर व्हिजन, ५.१) इमेज रेकग्निशन, ५.२) मशीन व्हिजन अनॅलिटिक्समध्ये गणित, संख्याशास्त्र संकल्पना वापरून अनेक-मिती आलेखाद्वारा माहिती संचाचे पॅटर्न, ट्रेंड, अंदाज, समूहीकरण इत्यादी डाटा विश्लेषण करतात. उदाहरण म्हणजे सेल्स विक्रीचा आगाऊ  अंदाज. मागील लेखात बघितल्याप्रमाणे इंजिन टेस्टिंग, लोकसंख्येचे ग्रुप्स इत्यादी.

डीप लर्निग हे मानवी मेंदूच्या कार्यपद्धतीवर आधारित आहे व एआयची सर्वात नवीन, प्रगत व महत्त्वपूर्ण शाखा आहे. आपल्या मेंदूत अब्जावधी न्यूरोन्स, मज्जातंतूचे जाळे असून त्यांचे कार्य एका साखळी प्रक्रियेप्रमाणे चालते. एक मज्जातंतू ठरावीक कार्य, माहिती विश्लेषण करून पुढच्या मज्जातंतूला त्याचे आऊटपुट पास करतो. दुसरा त्यावर आणखी कार्य, विश्लेषण करून ती तिसऱ्याला पाठवतो आणि अंतिम आऊटपुट मिळेपर्यंत ही साखळी सुरू राहते. त्याचप्रमाणे आर्टिफिशियल नुएरल नेटवर्क्‍सवर आधारित सॉफ्टवेअर्समध्ये अनेक लेयर.. थर असतात. प्रथम इनपुट लेयर. त्यापुढे अनेक लपलेले लेयर्स आणि शेवटी आऊटपुट लेयर. मागील लेखात बघितल्याप्रमाणे इथे प्रश्न + उत्तरे = सूत्र म्हणजेच उपलब्ध महितीसंचाच्या इनपुट्स, आऊटपुट्सवरून सूत्र, पॅटर्न शोधले जातात. गुगल मॅप सदरात लिहिल्याप्रमाणे प्रवास वेळ  = (६१*१ + ६२*२  + ६ल्ल*ल्ल – बायस) असे काहीतरी.

डीप लर्निगचे दोन प्रमुख प्रकार आहेत. एक कोन्वोलूशनल नुएरल नेटवर्क्‍स ज्याचा इमेज रेकग्निशन, प्रतिमा विश्लेषणसारख्या किचकट कामासाठी जास्त वापर होतो. आपण आधीच्या सदरात प्राणिविश्व हा विषय व त्याचा पसारा, गुंता बघितला. इथे एक प्रतिमा बारीक बारीक तुकडय़ामध्ये मोडून, छोटय़ात छोटय़ा तुकडय़ाचे विश्लेषण केले जाते. उदाहरणार्थ एक शंभर बाय शंभर ठिबके असलेली रांगोळी आपण दोन बाय दोन अशा तुकडय़ामध्ये मोडू. प्रत्येक तुकडय़ामध्ये काही ठरावीक माहिती, पॅटर्न शोधून, मग त्यावरून सर्वाचे समीकरण करून, एकंदर आराखडा बनवून अंतिम आऊटपुट मिळवू. याचा वापर सद्य:परिस्थितीचे विश्लेषण करण्यासाठी जरी अतिशय योग्य प्रकारे करता येत असला तरी जिथे वेळ, आधी केलेली गोष्ट याबद्दलची मेमरी, स्मरणशक्ती अशा गोष्टींची गरज पडते तिथे रिकरंट नुएरल नेटवर्क्‍स वापरतात. यामध्ये नवीन इनपुट, आऊटपुट व त्याआधील इनपुट्स, आऊटपुट्स असे एकत्रितपणे विश्लेषण केले जाते. उदाहरणार्थ गुगल व्हॉइस सर्च. तुम्हाला अनुभव आला असेलच की गुगल व इतर व्हॉइस सर्च इंजिन्स तुमच्या जुन्या सूचना, सर्च सर्व लक्षात ठेवून असते.

मायक्रोसॉफ्ट कंपनीच्या संशोधनामध्ये असे आढळून आले की, जगातील ९०% डाटा हा फक्त गेल्या दोन वर्षांतील नवनिर्मिती आहे व एकंदरीत ८०% डाटा हा अन-स्टर्ड असा आहे. जसे मनुष्याला अन्न तसेच एआयला डाटा, जितका जास्त पुरवठा तितकीच जोरदार वाढ. बरे अन-स्टर्ड म्हणजे नक्की काय? स्टर्ड डाटा म्हणजे एका ओळीत, तक्त्यात मांडलेले आकडे, एका सूचिबद्ध रचनेत लिहिलेला मजकूर. अन-स्टर्ड म्हणजे याविरुद्ध. सूचिबद्ध नसलेला मजकूर – लेख, कविता, टेक्स्ट, चॅट, व्हॉइस संभाषण, ईमेल, व्हिडीयो, प्रतिमा, फोटो इत्यादी. पारंपरिक सॉफ्टवेअर्स फक्त स्टर्ड माहितीचे विश्लेषण करू शकतात, म्हणजेच जगातील ८०% माहिती त्यांच्या सीमेपलीकडे, कुवतीबाहेर आहे. इथेच येते एआयची खरी किमया. कारण या ८०% अन-स्टर्ड डाटासाठी फक्त एआय हीच एकमेव अशी उपयुक्त प्रणाली आहे.

मनुष्य विविध भाषेत लिहू वाचू शकतो. त्याला मशीनच्या जगात नॅच्युरल लँग्वेज प्रोसेसिंग म्हणजेच नैसर्गिक भाषा प्रक्रिया म्हणतात. त्यातील इन्फॉर्मेशन एक्स्ट्रॅक्शनमध्ये असूचिबद्ध मजकूर वाचणे, समजणे, त्यातील हवी असलेली माहिती शोधून काढणे ही कार्ये येतात. वरील आयबीएम डिबेटरमध्ये हे नक्कीच वापरले असणार. लँग्वेज ट्रान्सलेशन म्हणजे भाषा अनुवाद, जसे इंग्लिश टू मराठी. क्लासिफिकेशन म्हणजे वर्गीकरण. गुगल व इतर ईमेल सुविधा आपल्याला आलेले काही ईमेल्स आपणहून ‘स्पॅम’ फोल्डरमध्ये टाकतात, ते लँग्वेज क्लासिफिकेशन वापरूनच.

जसे आपण कानांनी ऐकतो व समजतो त्याला मशीनच्या जगात स्पीच रेकग्निशन, संभाषण ओळखणे म्हणतात. इथे दोन प्रकारच्या क्रिया होतात. एक स्पीच टू टेक्स्ट म्हणजे ऐकलेल्या साऊंड, ध्वनी, शब्दांचे मजकुरात रूपांतर. दुसरी, याउलट, टेक्स्ट टु स्पीच म्हणजे मजकुराचे ध्वनी, शब्दांमध्ये रूपांतर. जेव्हा आपण अलेक्सा, सिरी, असिस्टंटबरोबर मानवी भाषेत संभाषण करतो जसे तेव्हा ती सॉफ्टवेअर्स प्रथम स्पीच टु टेक्स्ट, त्या टेक्स्टवरून नॅच्युरल लँग्वेज प्रोसेसिंग वापरून मुख्य प्रश्न, प्रमुख शब्द शोधणे, मग ते शब्द वापरून सर्चद्वारे उत्तर, त्या उत्तराचे परत टेक्स्ट टु स्पीचद्वारे ध्वनीमध्ये रूपांतर अशा पायऱ्या पूर्ण करत आपल्याशी संवाद साधतात.

रोबोटिक्स, एक्स्पर्ट सिस्टीम्स, प्लॅनिंग या शाखेत शारीरिक हालचाली करणारा रोबोट ज्याचा वापर औद्योगिक आस्थापना, धोकादायक स्थळी आणि हल्ली मनोरंजन म्हणून वापर करतात. कुठे वाचले की विमानतळावरील सुरक्षेसाठी रोबोटिक डॉगची चाचणी सुरू आहे म्हणे आपल्याकडे. एक्स्पर्ट सिस्टीम्स म्हणजे एका विशिष्ट कामासाठी जसे देखरेख, निदान यासाठी उपयुक्त अशा मशीन्स. प्लॅनिंग म्हणजे जिथे फक्त अंतिम उद्देश माहिती आहे, पण कसे पोचायचे तो मार्ग, क्रम माहीत नाही, तिथे विशिष्ट उद्देश साध्य करण्यासाठी क्रियांची निवड, क्रमवारी शोधणारी मशीन्स.

जसे आपण डोळ्यांनी बघतो, त्याचे विश्लेषण करतो त्याला इथे कॉम्प्युटर व्हिजन म्हणतात. यामध्ये फोटोमधील माणूस, प्राणी, गोष्टी, दृश्यामधील स्थळे, चेहऱ्यावरील हावभाव ओळखणे, व्हिडीओ अ‍ॅनॅलिसिस इत्यादी प्रकार येतात. सुरक्षा देखरेख, प्रकल्पामधील स्वयंचलित तपासणी, स्वयंचलित गाडी, मेडिकल तपासणी, निदान अशा कामांसाठी ती उपयुक्त असते.

hrishikesh.sherlekar@gmail.com

लेखक टाटा कन्सल्टन्सी सव्‍‌र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अ‍ॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत.