|| हृषिकेश दत्ताराम शेर्लेकर कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायला हवे. ही शक्यता काही दशके दूर वाटली तरी अशक्य नक्कीच नाही. मानवी बुद्धिमत्तेचा सर्वात सुंदर आविष्कार कुठला हे ठरवायचे झाल्यास ‘संवाद व भाषेला’ पहिल्या पाचमध्ये नक्कीच स्थान मिळावे. जगात साधारणपणे सात हजार भाषा वापरात असून सर्वात जास्त बोलली जाते अनुक्रमे चिनी मॅनडरीन, स्पॅनिश, इंग्लिश, फ्रेंच, अरेबिक, हिंदी, बंगाली, रशियन, जपानी, जर्मन इत्यादी. आपल्या देशात तर बघायलाच नको. एकंदर २२ प्रमुख भाषा व ७८० बोलीभाषा वापरात आहेत. पण भाषा हा तितकाच क्लिष्ट विषय. त्यात व्याकरण, वाक्प्रचार, म्हणी, गद्य-पद्य, औपचारिक-अनौपचारिक, उपहास-चेष्टा, भाषांतर व प्रादेशिक छटा असे अनेक पदर. परत मग विविध प्रकारचे उच्चार आणि शेवटी आकलन. गणितातला तरबेज गडी भाषेच्या विषयात फारशी रुची नसल्यामुळे म्हणा, अगदीच काठावर पास होतोय. तीच गत भाषेची आवड असलेल्यांची. ते बिचारे गणितात एकदम जेमतेम, असे चित्र शालेय जीवनात आपण बरेचदा अनुभवले असेल. पण मशीनला भाषा शिकवायची असल्यास? शून्य व एक अशी फक्त ‘बायनरी’ भाषाच समजणारा बिचारा संगणक. त्याने वरील सर्व क्लिष्ट ज्ञान, त्यातील बारकावे शिकून आपल्याशी माणसाप्रमाणे बोलावे, परत अनुभवातून प्रगतीही करावी ही अपेक्षा. आधी लिहिल्याप्रमाणे एआयचा (कृत्रिम प्रज्ञा) ‘आयक्यू’ सध्या फक्त एका सहा वर्षांच्या मुलाइतकाच प्रगत झालाय, मग त्याने एका प्रौढ मनुष्यासारखे ऐकावे, बोलावे ही शक्यता काही दशके दूर वाटली तरी अशक्य नक्कीच नाहीय. तेव्हा आजचे सदर ‘कॉन्व्हर्सेशनल एआय’ म्हणजेच कृत्रिम बुद्धिमत्तेच्या माध्यमातून मानवी संभाषण या विषयावर. कितीही किचकट असले तरी कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायलाच हवे, पण एआय गणिती संख्याशास्त्रावर आधारित तर नैसर्गिक भाषेत सूत्र, समीकरणांचा लवलेशही नाही. मग कसं काय कोडं सोडवायचं? उत्तर फारच सोप आहे - ‘अनुभवातून, उदाहरणातून, आधीच्या डेटातून’. सुरुवातीला एकाच भाषेवर लक्ष केंद्रित करू. म्हणूनच या एआयप्रणाली सर्वत्र उपलब्ध असलेला मानवी भाषांसंबंधी डेटा वापरून शिकतात. जसे शब्दकोश, वर्तमानपत्रे, पुस्तके, इंटरनेटवरील संबंधित मजकूर तसेच ऑडिओ डेटा म्हणजे भाषणे, उच्चार, भाषांतर इत्यादी. ‘नॅच्युरल लँगवेज प्रोसेसिंग व स्पीच’ या एआयच्या प्रमुख शाखा असून त्यातील उपशाखा आहेत. १) नॅच्युरल लँग्वेज अंडरस्टँडिंग (आकलन). २) नॅच्युरल लँग्वेज जनरेशन (निर्माण). ३) कंटेंट एक्स्ट्रॅक्शन (मजकूर शोधणे). ४) सेंटिमेंट अनॅलिटिक्स (अभिप्राय). ५) क्लासिफिकेशन (वर्गीकरण). ६) स्पीच टू टेक्स्ट (ध्वनी ते शब्द). ७) टेक्स्ट टू स्पीच (शब्द ते ध्वनी). ८) ट्रान्सलेशन (भाषांतर). हे झाले शास्त्रीय वर्गीकरण. व्यावसायिक वापरासाठी हल्ली सहज उपलब्ध असेलेले प्रॉडक्ट्स, ज्यातील बरेच ‘व्हच्र्युअल एजंट्स’ तुम्ही कळत-नकळत वापरलेही असतील. ते पुढीलप्रमाणे - १) चॅट-बॉट : मर्यादित स्वरूपात, ठरलेल्या विषयांवर लिखित संभाषण, चॅट माध्यमातून. २) ईमेल-बॉट : ठरवून दिलेल्या विषयांवर नवीन ईमेल पाठवणे, आलेल्या ईमेल्सना उत्तर किंवा त्यांचे ग्राहक सेवा अर्जामध्ये 'ऑटोमॅटिक' रूपांतर. ३) व्हॉइस-बॉट : यात एक प्रकार ठरलेल्या विषयांवर शाब्दिक संभाषण, वरील चॅट-बॉटचा ध्वनी आविष्कार. दुसरा प्रकार म्हणजे अॅमेझॉन अलेक्सा, गुगल असिस्टंट, अॅपल सिरी वगैरे स्मार्ट व्हॉइस सव्र्हिसेस. ४) ट्रान्सलेशन-बॉट : लिखित वा बोललेल्या शब्दांचे भाषांतर. ५) सेंटिमेंट-अनॅलिटिक्स व क्लासिफिकेशन : संभाषण ऐकून वा मजकूर वाचून त्यातील ठरावीक शब्दांवरून भावना, अभिप्राय शोधणे. ६) कंटेंट-बॉट : यात एक प्रकारे संभाषण ऐकून वा मजकूर वाचून सारांश काढणे, महत्त्वाचे शब्द शोधणे. दुसरा प्रकार त्याविरुद्ध, दिलेल्या विषयावर मजकूर निर्माण करणे, बोलून दाखवणे. काही प्रत्यक्ष वापरात असलेली निवडक उदाहरणे व किस्से. १) गौरव एका टेलिकॉम कंपनीच्या ग्राहक सेवा शाखेत कामाला आहे. कंपनीच्या ग्राहकांना फोन, ईमेल, चॅट माध्यमातून विविध माहिती पुरविणे, त्यांच्या प्रश्नांची उत्तरे देणे, नवीन ऑर्डर वा तक्रार नोंदवून घेणे, नवीन प्रॉडक्ट्सचे मार्केटिंग अशी सेवा तो व त्याचे हजारो सहकारी पुरवीत असतात. जागतिक सरासरीनुसार ३०-४० टक्के वेळा यातील माहिती व संभाषण अत्यंत सोपे, एकाच प्रकारचे असते. जसे माझी बिल रक्कम किती? वायफाय बंद आहे, वगैरे. यातील बरेच ट्रॅफिक हल्ली रोबोटिक ‘व्हच्र्युअल एजंट्सकडे’ वळविले जाते, ज्याला ‘डीफ्लेक्शन’ म्हणतात. हे बॉट प्राथमिक कामे स्वत: पूर्ण करून गरज पडल्यास किंवा ग्राहकाने मागणी केल्यास ‘मानवी एजंट्सकडे’ फोन, चॅट हस्तांतरित करतात, ज्याला ‘वॉर्म-ट्रान्सफर’ म्हणतात. कंपनीला फायदा खर्च, गुणवत्ता व उपलब्धता आणि ग्राहकांना लगेचच सेवा मिळाल्यामुळे वेळ वाया जाणे, अचूक व योग्य माहिती कधीही, कुठेही मिळवता येणे इत्यादी. पण मुख्य म्हणजे कंपनीचा सेवा पुरविण्याचा काही प्रमाणात वाचलेला खर्च, व्यावसायिक स्पर्धेमुळे काही टक्के तरी, ग्राहकांपर्यंत सुटीच्या रूपात पोहोचतोय. पण गौरवसारख्या कर्मचाऱ्यांचे काय, हा प्रश्न आहेच. एक तर बॉट फक्त प्राथमिक २०-३० टक्के कामेच सध्या ‘ऑटोमेट’ करू शकतात. दुसरे गौरवसारखे अनुभवी कर्मचारी, नवीन किंवा नाराज ग्राहकांना वैयक्तिक चर्चेसाठी जास्त वेळ देऊ शकतात, ज्याने सर्वाचाच फायदा होतो. ज्या कंपन्यांना ग्राहक सेवेसाठी प्रचंड प्रमाणात मनुष्यबळ लागते त्यांना एक उपयुक्त सुविधा या बॉट्सने निर्माण केली. तुम्ही पण प्रयत्न करा पुढील संकेतस्थळी जाऊन. तिथे उजवीकडे सर्वात खाली एक ‘चॅट आयकॉन’ दिसेल. त्यावर क्लिक करा. (). २) अनोळख्या ठिकाणी आपण रस्ता चुकलोय आणि तिथली भाषा येत नाही. हल्ली मोबाइल अॅपवर 'लँग्वेज ट्रान्सलेटर' उपलब्ध असतात. व्हॉइस व टेक्स्ट माध्यमात. गरजेला कामी पडणारी व प्राथमिक स्वरूपाची कामचलाऊ सुविधा मिळते, तीही फुकट. () ३) एका जागतिक बँकेच्या ग्राहक सेवा केंद्रात दिवसाला लाखो ईमेल्स येतात, तितकेच फोन कॉल, चॅट. काही साधारण माहिती मागणारे, काही नवीन प्रॉडक्ट, ऑर्डरविषयी चौकशी वगैरे. पण यातील काही टक्के कॉल वा ईमेल अत्यंत नाराज, चिडलेले, सोडून जाऊ शकणाऱ्या ग्राहकांचे असू शकतात. साहजिकच अशा ग्राहकांना वेगळ्या पद्धतीने हाताळण्याची गरज असते. सेंटिमेंट-अनॅलिटिक्स व क्लासिफिकेशन वापरून अशी संभाषणे वेगळी करता येतात. त्यातील ठरावीक शब्दांवरून. परत हीच मंडळी समाजमाध्यमांवर बँकेबद्दल नकारात्मक टिप्पणी तर पोस्ट करीत नाहीत ना यावरही हे बॉट्स देखरेख ठेवून असतात. मग हे काम वेगळ्या टीमकडे दिले जाते. ४) सध्या निवडणुका सुरू आहेत. काही दिवसांपूर्वी एका प्रसिद्ध वृत्तपत्रात सत्ताधारी पक्षाच्या सर्वात मोठय़ा नेत्याने २०१९ मध्ये केलेली सर्व भाषणे व त्यातील सर्वाधिक वापरलेल्या शब्दांचा उतरत्या क्रमाने आलेख, त्याचबरोबर बाजूला असाच आलेख २०१४ मधला दाखवून अत्यंत सुंदररीत्या दोन निवडणुकांमधील बदललेले विषय, मुद्दय़ांबद्दल भाष्य केले होते. ही सर्व भाषणे जर १०० हून अधिक धरली, सरासरी एक भाषण एक तास आणि एक मिनिटात दीडशे शब्द (जागतिक सरासरी) तरी आपण नऊ लाख शब्द ऐकून, त्यातील ठरावीक शब्द वेगळे काढून, मग शेवटी त्यांचा आलेख वगैरे बनविणे किती किचकट व वेळखाऊ काम असेल? परत रोज नवीन भाषण, म्हणजे परत रोज ‘रीपीट’. इथे कामी येते स्पीच अनॅलिटिक्स. सर्वप्रथम ‘व्हॉइस’ क्लिप्सना लिखित शब्दांमध्ये रूपांतरित केले जाते, ‘स्पीच टू टेक्स्ट’ एआयप्रणाली वापरून. पुढची पायरी ‘कीवर्ड’ सर्च करून कुठले शब्द किती वेळा उच्चारले अशी माहिती. मग त्यावरून ‘डेटा व्हिज्युअलायझेशन’ म्हणजे हाती आलेल्या माहितीचा प्रदर्शनीय अहवाल बनविणे. ज्यात आलेख, सारांश वगैरे आले. पुढील संकेतस्थळ पाहा- () ५) हल्ली सर्रास वापरत असलेले न्यूज अॅप ‘कंटेंट ऑटोमेशन’ नामक एआय प्रणालीचा वापर करून विविध स्रोतांतून बातम्या गोळा करतात व पूर्ण स्वयंचलित पद्धतीने प्रत्येक बातमीचा सारांश बनवितात, जो आपल्याला अॅपमध्ये सादर होतो. उदाहरणार्थ (). ‘रॅपिड६०’ नामक एआय प्रणाली, मिळवलेली प्रत्येक बातमी काटछाट करून केवळ 'साठ शब्द आणि एक सूचक फोटो' अशा छोटय़ा रूपात सादर करते. ‘नॅच्युरल लँग्वेज प्रोसेसिंग व स्पीच’ मध्ये आजपर्यंत सर्वात जास्त संशोधन, गुंतवणूक झाली आहे. जगातील प्रमुख पाच तंत्रज्ञान कंपन्यांचे स्वत:चे असे स्मार्ट व्हॉइस सव्र्हिसेस ब्रँड आहेत. अमेझॉन- अलेक्सा, गुगल- असिस्टंट, अॅपल- सिरी, मायक्रोसॉफ्ट- कोर्टाना, फेसबुक- अजून प्रतीक्षेत. अजून एक कंपनी ज्याबद्दल आवर्जून लिहावेसे वाटते ती म्हणजे ‘आयबीएम’. यांच्या ‘मिस् डीबेटर’बद्दल आपण पूर्वीच्या सदरात बघितलेच आहे. तिने ‘कृत्रिम संभाषण’ एका वेगळ्याच पातळीवर नेऊन ठेवलंय. अर्थात अजून बरीच मजल मारायची आहे पुढच्या दोन दशकांत. जोपर्यंत एआय एनएलपीप्रणाली ‘टुरिंग टेस्ट’ पास नाही होत तोपर्यंत तरी आपण या बॉट्सना बाळबोधच म्हणू, संभाषणचातुर्यात. लेखक टाटा कन्सल्टन्सी सव्र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत. hrishikesh.sherlekar@gmail.com