प्रसाद शिरगांवकर – prasad@aadii.net

आपल्या मोबाइल फोनला हातही न लावता के वळ ‘ओके  गूगल’ किंवा ‘हे गूगल’ असं उच्चारल्यावर फोनवर आपोआप उघडलं जाणारं ‘गूगल असिस्टंट’ हे अ‍ॅप आपल्यापैकी अनेकांनी वापरलं असेल. असे वेगवेगळे वाचिक सहाय्यक आता उपलब्ध झाले आहेत आणि त्यात दिवसागणिक अधिक आधुनिकता येत आहे. ‘हाऊ मे आय हेल्प यू?’ असा विनम्रतापूर्वक प्रश्न विचारत अशी सहाय्यक अ‍ॅप्स आपलं बोलणं समजून आपल्याला हवी ती माहिती शोधून देतात, आपल्याशी संवादही साधतात. हे तंत्र आकर्षक आणि अनेक बाबतींत उपयुक्त आहे हे खरं असलं, तरी त्या तंत्रज्ञानाची आपल्या खासगीपणावर गदा आणू शकणारी एक तांत्रिक बाजूही आहे. ती समजून घ्यायला हवी.

अन्नपदार्थाची घरपोच सेवा देणारी अनेक अ‍ॅप्स सध्या वापरली जात आहेत. त्यातल्या एखाद्या अ‍ॅपमधून तुम्ही एखादी ऑर्डर दिली आणि समजा ऑर्डर घरी पोहोचल्यानंतर तुमच्या लक्षात आलं की त्यात काही त्रुटी आहेत, तर त्याविषयी तक्रार करण्याची सोय अ‍ॅपमध्ये उपलब्ध असते. ती सोय म्हणजे अ‍ॅपमधून ‘चॅट’ करण्याची सोय. म्हणजे अ‍ॅपमधल्या ‘चॅट बॉक्स’मध्ये तुम्ही तुमची अडचण टाइप करून सांगायची आणि त्याला अ‍ॅपमधून प्रतिसाद मिळतो. आपण जे बोलतो आहोत, जी तक्रार करतो आहोत, ती समजून घेऊन त्याला योग्य असं उत्तर अ‍ॅपच्या चॅट बॉक्समधून दिलं जातं. गंमत अशी आहे, की आपण टाइप केलेल्या आपल्या समस्या वाचून त्याच्यावर उत्तर देण्यासाठी अ‍ॅपमध्ये खरा माणूस बसलेला नसतो! तर आपल्याशी बोलण्यासाठी तिथे ‘चॅट बॉट्स’ किंवा संवाद यंत्रं बसलेली असतात.

आपण विचारत असलेले प्रश्न समजून घेऊन त्यांना उत्तरं देणारी किंवा माणसांशी टेक्स्ट चॅटिंगच्या स्वरूपात बोलू शकणारी संवाद यंत्रे ही येऊ घातलेल्या युगाची एक नांदी आहे. वरकरणी अत्यंत साध्या वाटणाऱ्या या गोष्टीमागे ‘नॅचरल लँग्वेज प्रोसेसिंग’, ‘आर्टिफिशिअल इंटेलिजन्स’ आणि ‘मशीन लर्निग’ अशा अत्यंत आधुनिक आणि क्लिष्ट तंत्रज्ञानाचा सहभाग आहे. या सर्व तंत्रज्ञानाचा आणखी एक आविष्कार म्हणजे सध्या घरोघरी दिसायला लागलेले ‘व्हॉइस असिस्टंट्स’ अथवा ‘वाचिक साहाय्यक’. सध्या ‘अ‍ॅमेझॉन अलेक्सा’ किंवा ‘गूगल होम’ यांच्यासारखी संभाषण साहाय्यक (व्हॉइस असिस्टंट) उपकरणं घरोघरी पोहोचायला लागली आहेत. या उपकरणांशी आपण अक्षरश: एखाद्या व्यक्तीशी बोलतो तसं बोलू शकतो आणि आपण जे बोलतो आहोत ते समजून घेऊन त्याला योग्य तो प्रतिसाद ती उपकरणं आपल्याला देतात. ‘आत्ता किती वाजले आहेत?’, ‘आजची तारीख काय?’, ‘ आज किती ऊन किंवा पाऊस असेल याचं भाकीत काय?’, इथपासून ते ‘एकोणतीस साते किती?’ अन् ‘टिम्बक्टूची राजधानी कोणती?’ असा कोणताही प्रश्न आपण या वाचिक साहाय्यकांना विचारू शकतो आणि त्याची उत्तरं ते ‘बोलून’च आपल्याला देतात.

या तंत्रज्ञानाची पुढची पायरी ही गूगलनं त्यांच्या एका परिषदेत नुकतीच दाखवली. त्यामध्ये फोनवर माणसानं विचारलेल्या प्रश्नांना उत्तर देऊ शकणारा संगणक आणि संगणक प्रणाली यांचा डेमो त्यांनी दाखवला. गंमत म्हणजे, नुसता आपण केलेल्या फोनचं उत्तर देणारा संगणक नाही, तर आपल्याला स्वत:हून फोन करून ‘नैसर्गिक’ माणसासारखा आपल्याशी बोलू शकणारा संगणक आणि संगणक प्रणाली यांचाही त्यांनी डेमो दिला. हे एकाच वेळी अत्यंत रोचक आणि भीतीदायक दोन्ही आहे! एखाद्या अ‍ॅपमधून किंवा संके तस्थळावरून आपण टाइप केलेल्या प्रश्नांना उत्तरं देणारी संवाद यंत्रे, आपल्या घरी आपण विचारलेल्या प्रश्नांना उत्तरं देणारे वाचिक साहाय्यक आणि आपल्याशी फोनवर नैसर्गिक माणसासारखे बोलू शकणारे संगणक हे सारं तंत्रज्ञान आपल्या आजूबाजूला येऊ लागलं आहे. या सर्व तंत्रज्ञानाची एक गंमत अशी आहे, की हे जितके जास्त वापरले जातात तितके ते जास्त सुधारित होत राहतात. कारण, ते करत असलेल्या संभाषणांमधून शिकण्याची क्षमता या यंत्रांमध्ये असते!  येत्या काही वर्षांत कोणत्याही भाषेत, कोणत्याही पद्धतीनं विचारलेला प्रश्न समजून घेऊन, त्यावर विचार करून, माणूस माणसाशी साधतो त्या प्रकारचा संवाद साधणारी यंत्रं, संगणक, मोबाइल अ‍ॅप्स इत्यादींचं मोठं जाळं आपल्याभोवती तयार होण्याची शक्यता दिसत आहे. आपण एखाद्या कंपनीशी, सेवादात्याशी किंवा सरकारी यंत्रणेशी संपर्क साधायचा प्रयत्न करू, त्यांना काही सांगायचा, काही तक्रार मांडण्याचा प्रयत्न करू, तेव्हा आपल्याशी बोलणारी, आपल्याला उत्तर देणारी ही कु णी व्यक्ती असेल, की संगणक प्रणाली असेल, हे सांगता येणं अवघड होणार आहे.

या संभाषण तंत्रज्ञानाचे खूप फायदे दृष्टिपथात आहेत. सेवादात्या कंपन्यांना ग्राहकांशी संवाद साधण्यासाठी सांभाळाव्या लागणाऱ्या ‘कॉल सेंटर्स’चा खर्च खूप मोठय़ा प्रमाणात कमी होऊ शकेल. त्याचबरोबर एकाच वेळी अक्षरश: हजारो ग्राहकांच्या प्रश्नांना उत्तरं देता येणं शक्य होऊ शकेल. यामुळे ग्राहकांशी त्यांच्याच भाषेत आणि माणसांसारखाच संवाद साधू शकणारी यंत्रं हा येणाऱ्या काळात बहुसंख्य व्यवसायांचा एक अविभाज्य घटक बनण्याची शक्यता आहे. या संभाषण तंत्रज्ञानाचा ग्राहकांसाठी होणारा सगळ्यात मोठा फायदा म्हणजे कोणत्याही सेवादात्याला किंवा त्याच्या कॉल सेंटरला फोन केल्यानंतर आपल्याशी बोलणारी एखादी ‘खरी’ व्यक्ती उपलब्ध होईपर्यंत वाट बघावी लागणार नाही. आपण चॅट किंवा फोन केला, तर आपल्या प्रश्नांना तात्काळ उत्तर मिळू शकेल. अर्थात याला सध्या एक तोटय़ाची बाजूही आहे. अजूनही संभाषण करणारी यंत्रं ही माणसांइतकी सजग आणि हुशार नाहीत. त्यामुळे आपला प्रश्न जर त्या संभाषण करणाऱ्या यंत्राला समजला नाही, तर ते उत्तर देऊ शकत नाही, अन् ग्राहकांसाठी ही अत्यंत उद्वेगजनक गोष्ट ठरते.

या संभाषण तंत्रज्ञानाचा आणखी एक आविष्कार म्हणजे ‘व्हॉइस कमांड्स’ किंवा ‘बोली आज्ञा’. व्हॉइस कमांड म्हणजे आपण आपल्या आजूबाजूच्या यंत्रांना किंवा संगणकाला बटणं दाबून किंवा काहीतरी टाइप करून आज्ञा देण्याऐवजी, फक्त बोलून आज्ञा देऊ शकणं. उदाहरणार्थ, जर आपल्या घरात ‘होम ऑटोमेशन सिस्टीम’ लावली असेल, तर एखाद्या खोलीचे दिवे चालू किंवा बंद करण्यासाठी त्या बटणापर्यंत जाऊन बटण दाबण्याऐवजी, ‘अलेक्सा दिवे लाव’ किंवा ‘गूगल दिवे बंद कर’ हे सांगितलं, तरी दिवे आपोआप चालू किंवा बंद होऊ शकतात! सध्याच्या स्थितीमध्ये ही सोय फक्त एक गंमत वाटत असली तरी हळूहळू आपल्या भोवतीच्या सर्व यंत्रांचं नियंत्रण करण्यासाठी बटणं दाबणं, खटके ओढणं, टायपिंग करणं, हे काही करावं लागणार नाही. आपल्याला आपल्या भोवतीच्या यंत्रानं जी गोष्ट करावीशी वाटते ती आपण आपल्या बोलीभाषेत त्यांना सांगितली तर त्यांना आपली आज्ञा कळेल अन् ती ते अमलात आणतील. वर उल्लेख केला तसं, वरकरणी अगदी साध्या दिसणाऱ्या गोष्टींमध्ये नॅचरल लँग्वेज प्रोसेसिंग, मशीन लर्निग, आर्टिफिशिअल इंटेलिजन्स आणि रोबोटिक्स या अत्यंत क्लिष्ट तंत्रज्ञानांचा उपयोग केला जातो आहे.

संभाषण तंत्रज्ञानावर घेतला जाणारा सगळ्यात मोठा आक्षेप म्हणजे आपल्या खासगीपणाच्या मर्यादेचं केलं जात असलेलं उल्लंघन हा आहे. वर उल्लेख केला त्याप्रमाणे जर यंत्रांना माणसांशी संभाषण करायचं असेल तर किंवा ते करायचं शिकायचं असेल तर त्यांना अधिकाधिक माणसांशी संभाषण साधावं लागतं. माणसांबरोबरचं संभाषण रेकॉर्ड करून ठेवावं लागतं. त्याचं विश्लेषण करावं लागतं. हे करण्यासाठी खूप मोठय़ा प्रमाणात खऱ्या माणसांच्या खऱ्या संभाषणांचे नमुने त्यांना साठवावे लागतात. म्हणजे आपण आपल्या वाचिक साहाय्यकाशी बोलतो किंवा एखाद्या अ‍ॅपवरून त्यांच्या ‘कस्टमर सपोर्ट’शी संवाद साधतो किंवा मोबाइलला एखादी बोली आज्ञा देतो, तेव्हा ते सारं कुठेतरी साठवलं जात असतं. आपला आवाज, आपली बोलण्याची पद्धत, आपली भाषा, आपले प्रश्न, हे सारं साठवलं जातंच, पण त्याचबरोबर आपलं वय, लिंग, देश, ठिकाण इत्यादी माहितीही साठवली अन् विश्लेषणासाठी वापरली जाते. हा आपल्या खासगीपणावरचा अन् खासगी आयुष्यावरचा मोठा अधिक्षेप आहे असं काही जणांना वाटतं. त्याही पुढे जाऊन, यंत्रांची संभाषणक्षमता ही अधिकाधिक वाढावी म्हणून मोबाइलमधली काही अ‍ॅप्स आणि काही वाचिक साहाय्यक हे वरकरणी बंद असताना किंवा आपण वापरत नसतानाही आपलं संभाषण सदैव कान टवकारून ऐकत असतात अशी काही जणांना शंका आहे. आपली परवानगी न घेता आपल्या खासगी आयुष्यात सुरू असलेली संभाषणं ऐकत राहणं आणि त्यांचं विश्लेषण करत राहणं ही अत्यंत धोकादायक गोष्ट आहे.

इथे आपण एका अत्यंत विचित्र आणि अवघड प्रश्नापाशी येऊन थांबतो. आपण आपल्या सेवादात्यांशी करत असलेलं संभाषण किंवा आपल्याभोवतीच्या यंत्रांना देत असलेल्या आज्ञा हे सारं नैसर्गिक भाषेत करत असलेल्या संभाषणातून होऊ शकणं यानं आपलं आयुष्य सुकर होत आहे हे खरं आहेच. पण त्याचबरोबर आपल्याशी संभाषण साधण्यासाठी किंवा आपल्या बोलण्याचा आशय समजण्यासाठी यंत्रांची बुद्धिमत्ता वाढणंही गरजेचं आहे. त्यासाठी त्यांना आपल्याविषयी आणि आपल्या संभाषणाविषयी अधिकाधिक माहिती मिळणं गरजेचं आहे. संभाषण तंत्रज्ञानातून आपल्याला मिळणारी सोय महत्त्वाची, का ते विकसित व्हावं म्हणून आपल्या खासगीपणावर होत असलेलं आक्रमण धोकादायक, या प्रश्नावर आपल्याला विचार करावा लागणार आहे. किंवा कदाचित या प्रश्नावर विचार करायची वेळ निघून गेली आहे. आपल्याला मिळणाऱ्या सोयी-सुविधांच्यापोटी आपण आपल्या खासगीपणाच्या हक्कावर के व्हाच पाणी सोडलं आहे.

(लेखक मुक्तस्रोत तंत्रज्ञानामध्ये आंतरराष्ट्रीय पातळीवर काम करणारे प्रशिक्षक आणि वक्ते आहेत.)