18 October 2019

News Flash

कृत्रिम प्रज्ञा आणि मानवी संभाषण

कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायला हवे.

|| हृषिकेश दत्ताराम शेर्लेकर

कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायला हवे. ही शक्यता काही दशके दूर वाटली तरी अशक्य नक्कीच नाही.

मानवी बुद्धिमत्तेचा सर्वात सुंदर आविष्कार कुठला हे ठरवायचे झाल्यास ‘संवाद व भाषेला’ पहिल्या पाचमध्ये नक्कीच स्थान मिळावे. जगात साधारणपणे सात हजार भाषा वापरात असून सर्वात जास्त बोलली जाते अनुक्रमे चिनी मॅनडरीन, स्पॅनिश, इंग्लिश, फ्रेंच, अरेबिक, हिंदी, बंगाली, रशियन, जपानी, जर्मन इत्यादी. आपल्या देशात तर बघायलाच नको. एकंदर २२ प्रमुख भाषा व ७८० बोलीभाषा वापरात आहेत.

पण भाषा हा तितकाच क्लिष्ट विषय. त्यात व्याकरण, वाक्प्रचार, म्हणी, गद्य-पद्य, औपचारिक-अनौपचारिक, उपहास-चेष्टा, भाषांतर व प्रादेशिक छटा असे अनेक पदर. परत मग विविध प्रकारचे उच्चार आणि शेवटी आकलन. गणितातला तरबेज गडी भाषेच्या विषयात फारशी रुची नसल्यामुळे म्हणा, अगदीच काठावर पास होतोय. तीच गत भाषेची आवड असलेल्यांची. ते बिचारे गणितात एकदम जेमतेम, असे चित्र शालेय जीवनात आपण बरेचदा अनुभवले असेल. पण मशीनला भाषा शिकवायची असल्यास? शून्य व एक अशी फक्त ‘बायनरी’ भाषाच समजणारा बिचारा संगणक. त्याने वरील सर्व क्लिष्ट ज्ञान, त्यातील बारकावे शिकून आपल्याशी माणसाप्रमाणे बोलावे, परत अनुभवातून प्रगतीही करावी ही अपेक्षा. आधी लिहिल्याप्रमाणे एआयचा (कृत्रिम प्रज्ञा) ‘आयक्यू’ सध्या फक्त एका सहा वर्षांच्या मुलाइतकाच प्रगत झालाय, मग त्याने एका प्रौढ मनुष्यासारखे ऐकावे, बोलावे ही शक्यता काही दशके दूर वाटली तरी अशक्य नक्कीच नाहीय. तेव्हा आजचे सदर ‘कॉन्व्हर्सेशनल एआय’ म्हणजेच कृत्रिम बुद्धिमत्तेच्या माध्यमातून मानवी संभाषण या विषयावर.

कितीही किचकट असले तरी कृत्रिम बुद्धिमत्तेला मानवी संभाषण यायलाच हवे, पण एआय गणिती संख्याशास्त्रावर आधारित तर नैसर्गिक भाषेत सूत्र, समीकरणांचा लवलेशही नाही. मग कसं काय कोडं सोडवायचं? उत्तर फारच सोप आहे – ‘अनुभवातून, उदाहरणातून, आधीच्या डेटातून’.  सुरुवातीला एकाच भाषेवर लक्ष केंद्रित करू. म्हणूनच या एआयप्रणाली सर्वत्र उपलब्ध असलेला मानवी भाषांसंबंधी डेटा वापरून शिकतात. जसे शब्दकोश, वर्तमानपत्रे, पुस्तके, इंटरनेटवरील संबंधित मजकूर तसेच ऑडिओ डेटा म्हणजे भाषणे, उच्चार, भाषांतर इत्यादी.

‘नॅच्युरल लँगवेज प्रोसेसिंग व स्पीच’ या एआयच्या प्रमुख शाखा असून त्यातील उपशाखा आहेत. १) नॅच्युरल लँग्वेज अंडरस्टँडिंग (आकलन). २) नॅच्युरल लँग्वेज जनरेशन (निर्माण). ३) कंटेंट एक्स्ट्रॅक्शन (मजकूर शोधणे). ४) सेंटिमेंट अनॅलिटिक्स (अभिप्राय). ५) क्लासिफिकेशन (वर्गीकरण). ६) स्पीच टू टेक्स्ट (ध्वनी ते शब्द). ७) टेक्स्ट टू स्पीच (शब्द ते ध्वनी). ८) ट्रान्सलेशन (भाषांतर). हे झाले शास्त्रीय वर्गीकरण. व्यावसायिक वापरासाठी हल्ली सहज उपलब्ध असेलेले प्रॉडक्ट्स, ज्यातील बरेच ‘व्हच्र्युअल एजंट्स’ तुम्ही कळत-नकळत वापरलेही असतील. ते पुढीलप्रमाणे –

१) चॅट-बॉट : मर्यादित स्वरूपात, ठरलेल्या विषयांवर लिखित संभाषण, चॅट माध्यमातून.

२) ईमेल-बॉट : ठरवून दिलेल्या विषयांवर नवीन ईमेल पाठवणे, आलेल्या ईमेल्सना उत्तर किंवा त्यांचे ग्राहक सेवा अर्जामध्ये ‘ऑटोमॅटिक’ रूपांतर.

३) व्हॉइस-बॉट : यात एक प्रकार ठरलेल्या विषयांवर शाब्दिक संभाषण, वरील चॅट-बॉटचा ध्वनी आविष्कार. दुसरा प्रकार म्हणजे अ‍ॅमेझॉन अलेक्सा, गुगल असिस्टंट, अ‍ॅपल सिरी वगैरे स्मार्ट व्हॉइस सव्‍‌र्हिसेस.

४) ट्रान्सलेशन-बॉट : लिखित वा बोललेल्या शब्दांचे भाषांतर.

५) सेंटिमेंट-अनॅलिटिक्स व क्लासिफिकेशन : संभाषण ऐकून वा मजकूर वाचून त्यातील ठरावीक शब्दांवरून भावना, अभिप्राय शोधणे.

६) कंटेंट-बॉट : यात एक प्रकारे संभाषण ऐकून वा मजकूर वाचून सारांश काढणे, महत्त्वाचे शब्द शोधणे. दुसरा प्रकार त्याविरुद्ध, दिलेल्या विषयावर मजकूर निर्माण करणे, बोलून दाखवणे.

काही प्रत्यक्ष वापरात असलेली निवडक उदाहरणे व किस्से.

१) गौरव एका टेलिकॉम कंपनीच्या ग्राहक सेवा शाखेत कामाला आहे. कंपनीच्या ग्राहकांना फोन, ईमेल, चॅट माध्यमातून विविध माहिती पुरविणे, त्यांच्या प्रश्नांची उत्तरे देणे, नवीन ऑर्डर वा तक्रार नोंदवून घेणे, नवीन प्रॉडक्ट्सचे मार्केटिंग अशी सेवा तो व त्याचे हजारो सहकारी पुरवीत असतात. जागतिक सरासरीनुसार ३०-४० टक्के वेळा यातील माहिती व संभाषण अत्यंत सोपे, एकाच प्रकारचे असते. जसे माझी बिल रक्कम किती? वायफाय बंद आहे, वगैरे. यातील बरेच ट्रॅफिक हल्ली रोबोटिक ‘व्हच्र्युअल एजंट्सकडे’ वळविले जाते, ज्याला ‘डीफ्लेक्शन’ म्हणतात. हे बॉट प्राथमिक कामे स्वत: पूर्ण करून गरज पडल्यास किंवा ग्राहकाने मागणी केल्यास ‘मानवी एजंट्सकडे’ फोन, चॅट हस्तांतरित करतात, ज्याला ‘वॉर्म-ट्रान्सफर’ म्हणतात. कंपनीला फायदा खर्च, गुणवत्ता व उपलब्धता आणि ग्राहकांना लगेचच सेवा मिळाल्यामुळे वेळ वाया जाणे, अचूक व योग्य माहिती कधीही, कुठेही मिळवता येणे इत्यादी. पण मुख्य म्हणजे कंपनीचा सेवा पुरविण्याचा काही प्रमाणात वाचलेला खर्च, व्यावसायिक स्पर्धेमुळे काही टक्के तरी, ग्राहकांपर्यंत सुटीच्या रूपात पोहोचतोय. पण गौरवसारख्या कर्मचाऱ्यांचे काय, हा प्रश्न आहेच. एक तर बॉट फक्त प्राथमिक २०-३० टक्के कामेच सध्या ‘ऑटोमेट’ करू शकतात. दुसरे गौरवसारखे अनुभवी कर्मचारी, नवीन किंवा नाराज ग्राहकांना वैयक्तिक चर्चेसाठी जास्त वेळ देऊ  शकतात, ज्याने सर्वाचाच फायदा होतो. ज्या कंपन्यांना ग्राहक सेवेसाठी प्रचंड प्रमाणात मनुष्यबळ लागते त्यांना एक उपयुक्त सुविधा या बॉट्सने निर्माण केली. तुम्ही पण प्रयत्न करा पुढील संकेतस्थळी जाऊन. तिथे उजवीकडे सर्वात खाली एक ‘चॅट आयकॉन’ दिसेल. त्यावर क्लिक करा. (https://www.airtel.in/help/).

२) अनोळख्या ठिकाणी आपण रस्ता चुकलोय आणि तिथली भाषा येत नाही. हल्ली मोबाइल अ‍ॅपवर ‘लँग्वेज ट्रान्सलेटर’ उपलब्ध असतात. व्हॉइस व टेक्स्ट माध्यमात. गरजेला कामी पडणारी व प्राथमिक स्वरूपाची कामचलाऊ सुविधा मिळते, तीही फुकट. (https://translate.google.com/)

३) एका जागतिक बँकेच्या ग्राहक सेवा केंद्रात दिवसाला लाखो ईमेल्स येतात, तितकेच फोन कॉल, चॅट. काही साधारण माहिती मागणारे, काही नवीन प्रॉडक्ट, ऑर्डरविषयी चौकशी वगैरे. पण यातील काही टक्के कॉल वा ईमेल अत्यंत नाराज, चिडलेले, सोडून जाऊ  शकणाऱ्या ग्राहकांचे असू शकतात. साहजिकच अशा ग्राहकांना वेगळ्या पद्धतीने हाताळण्याची गरज असते. सेंटिमेंट-अनॅलिटिक्स व क्लासिफिकेशन वापरून अशी संभाषणे वेगळी करता येतात. त्यातील ठरावीक शब्दांवरून. परत हीच मंडळी समाजमाध्यमांवर बँकेबद्दल नकारात्मक टिप्पणी तर पोस्ट करीत नाहीत ना यावरही हे बॉट्स देखरेख ठेवून असतात. मग हे काम वेगळ्या टीमकडे दिले जाते.

४) सध्या निवडणुका सुरू आहेत. काही दिवसांपूर्वी एका प्रसिद्ध वृत्तपत्रात सत्ताधारी पक्षाच्या सर्वात मोठय़ा नेत्याने २०१९ मध्ये केलेली सर्व भाषणे व त्यातील सर्वाधिक वापरलेल्या शब्दांचा उतरत्या क्रमाने आलेख, त्याचबरोबर बाजूला असाच आलेख २०१४ मधला दाखवून अत्यंत सुंदररीत्या दोन निवडणुकांमधील बदललेले विषय, मुद्दय़ांबद्दल भाष्य केले होते. ही सर्व भाषणे जर १०० हून अधिक धरली, सरासरी एक भाषण एक तास आणि एक मिनिटात दीडशे शब्द (जागतिक सरासरी) तरी आपण नऊ  लाख शब्द ऐकून, त्यातील ठरावीक शब्द वेगळे काढून, मग शेवटी त्यांचा आलेख वगैरे बनविणे किती किचकट व वेळखाऊ  काम असेल? परत रोज नवीन भाषण, म्हणजे परत रोज ‘रीपीट’. इथे कामी येते स्पीच अनॅलिटिक्स. सर्वप्रथम ‘व्हॉइस’ क्लिप्सना लिखित शब्दांमध्ये रूपांतरित केले जाते, ‘स्पीच टू टेक्स्ट’ एआयप्रणाली वापरून. पुढची पायरी ‘कीवर्ड’ सर्च करून कुठले शब्द किती वेळा उच्चारले अशी माहिती. मग त्यावरून ‘डेटा व्हिज्युअलायझेशन’ म्हणजे हाती आलेल्या माहितीचा प्रदर्शनीय अहवाल बनविणे. ज्यात आलेख, सारांश वगैरे आले. पुढील संकेतस्थळ पाहा-  (https://wordcounter.net/)

५) हल्ली सर्रास वापरत असलेले न्यूज अ‍ॅप ‘कंटेंट ऑटोमेशन’ नामक एआय प्रणालीचा वापर करून विविध स्रोतांतून बातम्या गोळा करतात व पूर्ण स्वयंचलित पद्धतीने प्रत्येक बातमीचा सारांश बनवितात, जो आपल्याला अ‍ॅपमध्ये सादर होतो.

उदाहरणार्थ (https://inshorts.com/).

‘रॅपिड६०’ नामक एआय प्रणाली, मिळवलेली प्रत्येक बातमी काटछाट करून केवळ ‘साठ शब्द आणि एक सूचक फोटो’ अशा छोटय़ा रूपात सादर करते.  ‘नॅच्युरल लँग्वेज प्रोसेसिंग व स्पीच’ मध्ये आजपर्यंत सर्वात जास्त संशोधन, गुंतवणूक झाली आहे. जगातील प्रमुख पाच तंत्रज्ञान कंपन्यांचे स्वत:चे असे स्मार्ट व्हॉइस सव्‍‌र्हिसेस ब्रँड आहेत. अमेझॉन- अलेक्सा, गुगल- असिस्टंट, अ‍ॅपल- सिरी, मायक्रोसॉफ्ट- कोर्टाना, फेसबुक- अजून प्रतीक्षेत. अजून एक कंपनी ज्याबद्दल आवर्जून लिहावेसे वाटते ती म्हणजे ‘आयबीएम’. यांच्या ‘मिस् डीबेटर’बद्दल आपण पूर्वीच्या सदरात बघितलेच आहे. तिने ‘कृत्रिम संभाषण’ एका वेगळ्याच पातळीवर नेऊन ठेवलंय. अर्थात अजून बरीच मजल मारायची आहे पुढच्या दोन दशकांत. जोपर्यंत एआय एनएलपीप्रणाली ‘टुरिंग टेस्ट’ पास नाही होत तोपर्यंत तरी आपण या बॉट्सना बाळबोधच म्हणू, संभाषणचातुर्यात.

लेखक टाटा कन्सल्टन्सी सव्‍‌र्हिसेसमध्ये साहाय्यक उपाध्यक्ष आणि सध्या अ‍ॅनालिटिक्स आणि इनसाइट्सच्या यूएसए सेंटरचे प्रमुख म्हणून कार्यरत आहेत.

hrishikesh.sherlekar@gmail.com

 

First Published on April 22, 2019 1:51 am

Web Title: artificial intelligence and human conversation