|| हृषिकेश दत्ताराम शेर्लेकर

कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायला हवे. ही शक्यता काही दशके दूर वाटली तरी अशक्य नक्कीच नाही.

loksatta kutuhal features of self aware artificial intelligence
कुतूहल : स्वजाणीव- तंत्रज्ञानाची वैशिष्टये..
peter higgs marathi articles loksatta,
पदार्थ विज्ञानातील जादूगार…
Loksatta kutuhal Creator of artificial intelligence Judea Perl
कुतूहल: कृत्रिम बुद्धिमत्तेचे रचनाकार – ज्युडेया पर्ल
All information about OpenAI GPT 4 Vision in marathi
प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया; GPT- 4 Vision नक्की काय आहे?

मानवी बुद्धिमत्तेचा सर्वात सुंदर आविष्कार कुठला हे ठरवायचे झाल्यास ‘संवाद व भाषेला’ पहिल्या पाचमध्ये नक्कीच स्थान मिळावे. जगात साधारणपणे सात हजार भाषा वापरात असून सर्वात जास्त बोलली जाते अनुक्रमे चिनी मॅनडरीन, स्पॅनिश, इंग्लिश, फ्रेंच, अरेबिक, हिंदी, बंगाली, रशियन, जपानी, जर्मन इत्यादी. आपल्या देशात तर बघायलाच नको. एकंदर २२ प्रमुख भाषा व ७८० बोलीभाषा वापरात आहेत.

पण भाषा हा तितकाच क्लिष्ट विषय. त्यात व्याकरण, वाक्प्रचार, म्हणी, गद्य-पद्य, औपचारिक-अनौपचारिक, उपहास-चेष्टा, भाषांतर व प्रादेशिक छटा असे अनेक पदर. परत मग विविध प्रकारचे उच्चार आणि शेवटी आकलन. गणितातला तरबेज गडी भाषेच्या विषयात फारशी रुची नसल्यामुळे म्हणा, अगदीच काठावर पास होतोय. तीच गत भाषेची आवड असलेल्यांची. ते बिचारे गणितात एकदम जेमतेम, असे चित्र शालेय जीवनात आपण बरेचदा अनुभवले असेल. पण मशीनला भाषा शिकवायची असल्यास? शून्य व एक अशी फक्त ‘बायनरी’ भाषाच समजणारा बिचारा संगणक. त्याने वरील सर्व क्लिष्ट ज्ञान, त्यातील बारकावे शिकून आपल्याशी माणसाप्रमाणे बोलावे, परत अनुभवातून प्रगतीही करावी ही अपेक्षा. आधी लिहिल्याप्रमाणे एआयचा (कृत्रिम प्रज्ञा) ‘आयक्यू’ सध्या फक्त एका सहा वर्षांच्या मुलाइतकाच प्रगत झालाय, मग त्याने एका प्रौढ मनुष्यासारखे ऐकावे, बोलावे ही शक्यता काही दशके दूर वाटली तरी अशक्य नक्कीच नाहीय. तेव्हा आजचे सदर ‘कॉन्व्हर्सेशनल एआय’ म्हणजेच कृत्रिम बुद्धिमत्तेच्या माध्यमातून मानवी संभाषण या विषयावर.

कितीही किचकट असले तरी कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायलाच हवे, पण एआय गणिती संख्याशास्त्रावर आधारित तर नैसर्गिक भाषेत सूत्र, समीकरणांचा लवलेशही नाही. मग कसं काय कोडं सोडवायचं? उत्तर फारच सोप आहे – ‘अनुभवातून, उदाहरणातून, आधीच्या डेटातून’.  सुरुवातीला एकाच भाषेवर लक्ष केंद्रित करू. म्हणूनच या एआयप्रणाली सर्वत्र उपलब्ध असलेला मानवी भाषांसंबंधी डेटा वापरून शिकतात. जसे शब्दकोश, वर्तमानपत्रे, पुस्तके, इंटरनेटवरील संबंधित मजकूर तसेच ऑडिओ डेटा म्हणजे भाषणे, उच्चार, भाषांतर इत्यादी.

‘नॅच्युरल लँगवेज प्रोसेसिंग व स्पीच’ या एआयच्या प्रमुख शाखा असून त्यातील उपशाखा आहेत. १) नॅच्युरल लँग्वेज अंडरस्टँडिंग (आकलन). २) नॅच्युरल लँग्वेज जनरेशन (निर्माण). ३) कंटेंट एक्स्ट्रॅक्शन (मजकूर शोधणे). ४) सेंटिमेंट अनॅलिटिक्स (अभिप्राय). ५) क्लासिफिकेशन (वर्गीकरण). ६) स्पीच टू टेक्स्ट (ध्वनी ते शब्द). ७) टेक्स्ट टू स्पीच (शब्द ते ध्वनी). ८) ट्रान्सलेशन (भाषांतर). हे झाले शास्त्रीय वर्गीकरण. व्यावसायिक वापरासाठी हल्ली सहज उपलब्ध असेलेले प्रॉडक्ट्स, ज्यातील बरेच ‘व्हच्र्युअल एजंट्स’ तुम्ही कळत-नकळत वापरलेही असतील. ते पुढीलप्रमाणे –

१) चॅट-बॉट : मर्यादित स्वरूपात, ठरलेल्या विषयांवर लिखित संभाषण, चॅट माध्यमातून.

२) ईमेल-बॉट : ठरवून दिलेल्या विषयांवर नवीन ईमेल पाठवणे, आलेल्या ईमेल्सना उत्तर किंवा त्यांचे ग्राहक सेवा अर्जामध्ये ‘ऑटोमॅटिक’ रूपांतर.

३) व्हॉइस-बॉट : यात एक प्रकार ठरलेल्या विषयांवर शाब्दिक संभाषण, वरील चॅट-बॉटचा ध्वनी आविष्कार. दुसरा प्रकार म्हणजे अ‍ॅमेझॉन अलेक्सा, गुगल असिस्टंट, अ‍ॅपल सिरी वगैरे स्मार्ट व्हॉइस सव्‍‌र्हिसेस.

४) ट्रान्सलेशन-बॉट : लिखित वा बोललेल्या शब्दांचे भाषांतर.

५) सेंटिमेंट-अनॅलिटिक्स व क्लासिफिकेशन : संभाषण ऐकून वा मजकूर वाचून त्यातील ठरावीक शब्दांवरून भावना, अभिप्राय शोधणे.

६) कंटेंट-बॉट : यात एक प्रकारे संभाषण ऐकून वा मजकूर वाचून सारांश काढणे, महत्त्वाचे शब्द शोधणे. दुसरा प्रकार त्याविरुद्ध, दिलेल्या विषयावर मजकूर निर्माण करणे, बोलून दाखवणे.

काही प्रत्यक्ष वापरात असलेली निवडक उदाहरणे व किस्से.

१) गौरव एका टेलिकॉम कंपनीच्या ग्राहक सेवा शाखेत कामाला आहे. कंपनीच्या ग्राहकांना फोन, ईमेल, चॅट माध्यमातून विविध माहिती पुरविणे, त्यांच्या प्रश्नांची उत्तरे देणे, नवीन ऑर्डर वा तक्रार नोंदवून घेणे, नवीन प्रॉडक्ट्सचे मार्केटिंग अशी सेवा तो व त्याचे हजारो सहकारी पुरवीत असतात. जागतिक सरासरीनुसार ३०-४० टक्के वेळा यातील माहिती व संभाषण अत्यंत सोपे, एकाच प्रकारचे असते. जसे माझी बिल रक्कम किती? वायफाय बंद आहे, वगैरे. यातील बरेच ट्रॅफिक हल्ली रोबोटिक ‘व्हच्र्युअल एजंट्सकडे’ वळविले जाते, ज्याला ‘डीफ्लेक्शन’ म्हणतात. हे बॉट प्राथमिक कामे स्वत: पूर्ण करून गरज पडल्यास किंवा ग्राहकाने मागणी केल्यास ‘मानवी एजंट्सकडे’ फोन, चॅट हस्तांतरित करतात, ज्याला ‘वॉर्म-ट्रान्सफर’ म्हणतात. कंपनीला फायदा खर्च, गुणवत्ता व उपलब्धता आणि ग्राहकांना लगेचच सेवा मिळाल्यामुळे वेळ वाया जाणे, अचूक व योग्य माहिती कधीही, कुठेही मिळवता येणे इत्यादी. पण मुख्य म्हणजे कंपनीचा सेवा पुरविण्याचा काही प्रमाणात वाचलेला खर्च, व्यावसायिक स्पर्धेमुळे काही टक्के तरी, ग्राहकांपर्यंत सुटीच्या रूपात पोहोचतोय. पण गौरवसारख्या कर्मचाऱ्यांचे काय, हा प्रश्न आहेच. एक तर बॉट फक्त प्राथमिक २०-३० टक्के कामेच सध्या ‘ऑटोमेट’ करू शकतात. दुसरे गौरवसारखे अनुभवी कर्मचारी, नवीन किंवा नाराज ग्राहकांना वैयक्तिक चर्चेसाठी जास्त वेळ देऊ  शकतात, ज्याने सर्वाचाच फायदा होतो. ज्या कंपन्यांना ग्राहक सेवेसाठी प्रचंड प्रमाणात मनुष्यबळ लागते त्यांना एक उपयुक्त सुविधा या बॉट्सने निर्माण केली. तुम्ही पण प्रयत्न करा पुढील संकेतस्थळी जाऊन. तिथे उजवीकडे सर्वात खाली एक ‘चॅट आयकॉन’ दिसेल. त्यावर क्लिक करा. (https://www.airtel.in/help/).

२) अनोळख्या ठिकाणी आपण रस्ता चुकलोय आणि तिथली भाषा येत नाही. हल्ली मोबाइल अ‍ॅपवर ‘लँग्वेज ट्रान्सलेटर’ उपलब्ध असतात. व्हॉइस व टेक्स्ट माध्यमात. गरजेला कामी पडणारी व प्राथमिक स्वरूपाची कामचलाऊ सुविधा मिळते, तीही फुकट. (https://translate.google.com/)

३) एका जागतिक बँकेच्या ग्राहक सेवा केंद्रात दिवसाला लाखो ईमेल्स येतात, तितकेच फोन कॉल, चॅट. काही साधारण माहिती मागणारे, काही नवीन प्रॉडक्ट, ऑर्डरविषयी चौकशी वगैरे. पण यातील काही टक्के कॉल वा ईमेल अत्यंत नाराज, चिडलेले, सोडून जाऊ  शकणाऱ्या ग्राहकांचे असू शकतात. साहजिकच अशा ग्राहकांना वेगळ्या पद्धतीने हाताळण्याची गरज असते. सेंटिमेंट-अनॅलिटिक्स व क्लासिफिकेशन वापरून अशी संभाषणे वेगळी करता येतात. त्यातील ठरावीक शब्दांवरून. परत हीच मंडळी समाजमाध्यमांवर बँकेबद्दल नकारात्मक टिप्पणी तर पोस्ट करीत नाहीत ना यावरही हे बॉट्स देखरेख ठेवून असतात. मग हे काम वेगळ्या टीमकडे दिले जाते.

४) सध्या निवडणुका सुरू आहेत. काही दिवसांपूर्वी एका प्रसिद्ध वृत्तपत्रात सत्ताधारी पक्षाच्या सर्वात मोठय़ा नेत्याने २०१९ मध्ये केलेली सर्व भाषणे व त्यातील सर्वाधिक वापरलेल्या शब्दांचा उतरत्या क्रमाने आलेख, त्याचबरोबर बाजूला असाच आलेख २०१४ मधला दाखवून अत्यंत सुंदररीत्या दोन निवडणुकांमधील बदललेले विषय, मुद्दय़ांबद्दल भाष्य केले होते. ही सर्व भाषणे जर १०० हून अधिक धरली, सरासरी एक भाषण एक तास आणि एक मिनिटात दीडशे शब्द (जागतिक सरासरी) तरी आपण नऊ  लाख शब्द ऐकून, त्यातील ठरावीक शब्द वेगळे काढून, मग शेवटी त्यांचा आलेख वगैरे बनविणे किती किचकट व वेळखाऊ  काम असेल? परत रोज नवीन भाषण, म्हणजे परत रोज ‘रीपीट’. इथे कामी येते स्पीच अनॅलिटिक्स. सर्वप्रथम ‘व्हॉइस’ क्लिप्सना लिखित शब्दांमध्ये रूपांतरित केले जाते, ‘स्पीच टू टेक्स्ट’ एआयप्रणाली वापरून. पुढची पायरी ‘कीवर्ड’ सर्च करून कुठले शब्द किती वेळा उच्चारले अशी माहिती. मग त्यावरून ‘डेटा व्हिज्युअलायझेशन’ म्हणजे हाती आलेल्या माहितीचा प्रदर्शनीय अहवाल बनविणे. ज्यात आलेख, सारांश वगैरे आले. पुढील संकेतस्थळ पाहा-  (https://wordcounter.net/)

५) हल्ली सर्रास वापरत असलेले न्यूज अ‍ॅप ‘कंटेंट ऑटोमेशन’ नामक एआय प्रणालीचा वापर करून विविध स्रोतांतून बातम्या गोळा करतात व पूर्ण स्वयंचलित पद्धतीने प्रत्येक बातमीचा सारांश बनवितात, जो आपल्याला अ‍ॅपमध्ये सादर होतो.

उदाहरणार्थ (https://inshorts.com/).

‘रॅपिड६०’ नामक एआय प्रणाली, मिळवलेली प्रत्येक बातमी काटछाट करून केवळ ‘साठ शब्द आणि एक सूचक फोटो’ अशा छोटय़ा रूपात सादर करते.  ‘नॅच्युरल लँग्वेज प्रोसेसिंग व स्पीच’ मध्ये आजपर्यंत सर्वात जास्त संशोधन, गुंतवणूक झाली आहे. जगातील प्रमुख पाच तंत्रज्ञान कंपन्यांचे स्वत:चे असे स्मार्ट व्हॉइस सव्‍‌र्हिसेस ब्रँड आहेत. अमेझॉन- अलेक्सा, गुगल- असिस्टंट, अ‍ॅपल- सिरी, मायक्रोसॉफ्ट- कोर्टाना, फेसबुक- अजून प्रतीक्षेत. अजून एक कंपनी ज्याबद्दल आवर्जून लिहावेसे वाटते ती म्हणजे ‘आयबीएम’. यांच्या ‘मिस् डीबेटर’बद्दल आपण पूर्वीच्या सदरात बघितलेच आहे. तिने ‘कृत्रिम संभाषण’ एका वेगळ्याच पातळीवर नेऊन ठेवलंय. अर्थात अजून बरीच मजल मारायची आहे पुढच्या दोन दशकांत. जोपर्यंत एआय एनएलपीप्रणाली ‘टुरिंग टेस्ट’ पास नाही होत तोपर्यंत तरी आपण या बॉट्सना बाळबोधच म्हणू, संभाषणचातुर्यात.

लेखक टाटा कन्सल्टन्सी सव्‍‌र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अ‍ॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत.

hrishikesh.sherlekar@gmail.com