19 May 2019

News Flash

नसतं तसं कसं दिसतं?

नव्या स्मार्टफोनची मॉडेलं बाजारात येतात तेव्हा जाहिरातींचा भर ‘फोनचा कॅमेरा किती चांगला आहे’, यावर असतो

(संग्रहित छायाचित्र)

संहिता जोशी

न्युरल नेटवर्क किंवा संगणकाच्या कोणत्याही आज्ञावलीला स्वतची बुद्धी नसते. माणसं जे शिकवतात ते विदाविज्ञान आणि त्यांतली अल्गोरिदम शिकतात. शिकवणाऱ्या विदावैज्ञानिकांनाच जर भल्याबुऱ्याची जाण नसेल, सम्यकदृष्टीचा अभाव असेल, समाजात जे अन्याय्य कल असतात, त्यांची समज नसेल तर संगणकालाही ते समजणार नाही..

जॅकी आल्सिने नावाच्या अभियंत्यानं २०१५ साली ट्वीट केलं – माझी मत्रीण गोरीला नाही.

नव्या स्मार्टफोनची मॉडेलं बाजारात येतात तेव्हा जाहिरातींचा भर ‘फोनचा कॅमेरा किती चांगला आहे’, यावर असतो. स्मार्टफोन बनवणाऱ्या कंपन्यांनी यासंदर्भात गिऱ्हाईकांना काय हवं आहे, याचा विचार केला. त्यात हाच मुद्दा पुढे आला, कारण आपण चित्रांमधून बरंच काही शिकतो, लक्षात ठेवतो. विदा (फोटो, व्हिडीओ) गोळा करणं, आंतरजालावरून ते क्लाउडवर साठवणं या गोष्टीही आता फार महाग राहिलेल्या नाहीत. साधारण वीस वर्षांपूर्वी बाजारात डिजिटल कॅमेरे येण्याची सुरुवात झाली. तेव्हाही फोटो साठवून ठेवणं आजच्याएवढं सोपं नव्हतं. फोटो थेट इन्स्टाग्राम किंवा फेसबुकवर शेअर करता येण्याची सोय हल्ली अनेक महागडय़ा कॅमेऱ्यांमध्येही असते. याचा अर्थ, फक्त फोटो काढणं ही गोष्ट महत्त्वाची नाही, तर त्यावर लोकांच्या प्रतिक्रिया दिसणं आधी महत्त्वाचं. मग ते फोटो वर्षभरानं पुन्हा दाखवणं अर्ध्याजेचं. शिवाय अनेक वर्षांनंतर मुलं मोठी होतात, किंवा आपलेच कॉलेजचे दिवस आठवायचे असतात, तर ते स्मरणरंजनही बहुतेकांना आवडतं.

धूळ, आद्र्रता, विसरभोळेपणा अशा वेगवेगळ्या कारणांमुळे जुने फोटो खराब-गहाळ होतात. स्मार्टफोनमध्ये जे फोटो आपण काढतो, ते थेट गूगल, अ‍ॅपलच्या क्लाउडमध्ये जातात. जुने फोटो शोधण्यासाठी, त्यांतले विवक्षित फोटो पटपट शोधण्यासाठी त्यांना काही लेबलं लावणं सोयीचं असतं. जागच्या जागी ठेवलेल्या वस्तू सहज सापडतात, तसंच.

डिजिटल फोटो, डिजिटल वस्तूंच्या जागा कशा ठरवणार? डिजिटल फोटोंना आपल्या भाषेतली नावं दिली की ते फोटो सहज सापडतात. आपला स्वतचा आंतरजालावरचा फोटो शोधायचा, तर आपलं नाव शोधणं सोपं असतं. त्यामुळे क्लाउडवर फोटो साठवून ठेवताना त्यांचं वर्गीकरण करून ठेवणं गूगल, अ‍ॅपल वगरेंच्या सोयीचं असतं.

शिवाय सुविधा पुरेशी नसेल तर गिऱ्हाईकं येणार नाहीत; आणि गिऱ्हाईकं नाहीत तर जाहिरातदार नाहीत; मग नफा नाही. नफा नसेल तर या सुविधा, कंपन्या अस्तित्वात असण्याचं कारणच नाही!

गूगल, मायक्रोसॉफ्ट, सगळ्याच क्लाउड स्टोरेजमध्ये फोटो जेव्हा साठवले जातात तेव्हा त्यांना लेबलं लावली जातात. दिवसाला शब्दश कोटय़वधी फोटो क्लाउडवर चढवले जातात. ही लेबलं लावण्याचं कामही हातानं करणं अशक्य आहे. मात्र फोटोंना लावल्या जाणाऱ्या लेबलांचे प्रकार मर्यादित असतात. फोटोतला मोठा भाग कोणत्या वस्तूनं किंवा व्यक्तीनं व्यापला आहे, किंवा फोटोत खूप माणसं आहेत, अशा प्रकारचं हे वर्गीकरण असतं.

इथे विदाविज्ञानाचं (डेटा सायन्स) काम सुरू होतं. विदेमध्ये (डेटा) असणारे पॅटर्न वापरून वर्गीकरण करणं, भाकितं करणं हे मशीन लर्निंगचं काम असतं. (कृत्रिम) न्युरल नेटवर्क वापरून फोटोंना लेबलं लावता येतात, ही लेबलं लावली की फोटो जागच्या जागी आवरून ठेवले असं म्हणता येतं. म्हणून क्लाउड सुविधा देणाऱ्या कंपन्या फोटो आंतरजालावर चढवले की त्यांना लेबलं लावून ठेवतात.

विदाविज्ञानात भाकितं करण्याचं काम कसं चालतं हे समजून घेण्यासाठी फोटोंचंच उदाहरण वापरूया. त्यासाठी विदा जमा केली जाते, इथे फोटो म्हणजे विदा. त्यांचं वर्गीकरण केलं जातं – जी लेबलं लावून फोटो आवरून ठेवायचे असतात, ती लेबलं आधी काही फोटोंना लावली जातात. हे काम हातानं केलं जातं. प्रत्येक प्रकारच्या निदान काही हजार फोटोंना हातानं लेबलं लावावी लागतात.

समजा, न्युरल नेटवर्कला कुत्र्यांचे फोटो ओळखायला शिकवायचं आहे. कधी फक्त कुत्र्याचा फोटो असतो, कधी फोटोत कुत्रा आणि त्याच्याशी खेळणारी माणसं असतात, कधी पोहणारा कुत्रा असेल; कधी कुत्रा बसलेला, कधी उभा असेल; कधी दोन पायांवर उभा असेल; काही फोटोंत एकापेक्षा जास्त कुत्रे असतील; कधी कुत्र्यासोबत मांजरसुद्धा असेल. माणसाच्या बुद्धीला ‘हा फोटो कुत्र्याचा’ हे ज्या प्रकारे समजतं तसं न्युरल नेटवर्कला समजत नाही. आपण बघताना संपूर्ण प्रतिमा बघतो आणि तिचा अर्थ लावतो. न्युरल नेटवर्क कोणतीही प्रतिमा पाहताना वस्तू, आकृतीच्या कडा, टोकं बघतं आणि त्यावरून ही वस्तू काय आहे, याचा अर्थ लावतं. त्यामुळे पुरेशी विदा दिली नाही तरी चार पायांचे सगळे प्राणी कुत्रेच आहेत, असंही संगणक (न्युरल नेटवर्क वापरून) आपल्याला सांगू शकतो.

जॅकी आल्सिने या अभियंत्यानं स्वत काढलेले फोटो जेव्हा गूगलवर चढवले, तेव्हा त्या फोटोंचंही वर्गीकरण गूगलनं केलं. जॅकीची एक मत्रीण गोरीला असल्याचं लेबल त्याला दिसलं. याचं कारण गूगलला कृष्णवर्णीय लोकांचे फोटो दाखवून, माणसं अशीसुद्धा दिसतात हे शिकवलेलंच नव्हतं. गूगलच्या न्युरल नेटवर्कला शिकवताना, बहुतांशी गोऱ्या लोकांचे फोटोच दाखवले गेले होते; कृष्णवर्णीय चेहरे माणसांचेच आहेत, हे न्युरल नेटवर्कला समजलं नाही. मग शब्दश जो काही ‘जुमला’ किंवा ‘जुगाड’ करता येईल तो केला.

न्युरल नेटवर्क किंवा संगणकाच्या कोणत्याही आज्ञावलीला स्वतची बुद्धी नसते. माणसं जे शिकवतात ते विदाविज्ञान आणि त्यांतली अल्गोरिदम शिकतात. शिकवणाऱ्या विदावैज्ञानिकांनाच जर भल्याबुऱ्याची जाण नसेल, सम्यकदृष्टीचा अभाव असेल, समाजात जे अन्याय्य कल असतात, त्यांची समज नसेल तर संगणकालाही ते समजणार नाही.

कॅमेऱ्यातून फोटो काढल्यावर लगेच समजलं की लोकांचे डोळे मिटलेले आहेत, तर आपण लगेच पुन्हा फोटो काढू. मात्र चिनी-कोरियन लोकांचे डोळे मुळातच बारीक असतात. त्यांचे फोटो काढताना कॅमेरा जर उगाच ‘डोळे मिटलेले आहेत’ म्हणून फोटो रेकॉर्ड करणं नाकारायला लागला तर तो वंशवाद ठरतो. काळ्या मुलीच्या फोटोचं वर्गीकरण गोरीला असं करणं, हाही वंशवाद ठरतो. याचं मूळ कारण जेवढय़ा प्रमाणात गोऱ्या लोकांचे फोटो वापरून न्युरल नेटवर्क तयार केली गेली, तेवढय़ा प्रमाणात गौरेतर लोकांचा समावेश मूळ विदेत नव्हता. ज्या कॅमेऱ्यांना चिनी-कोरियन लोकांचे डोळे उघडेच आहेत, हे समजलं नाही, त्यांच्या सॉफ्टवेअर प्रणालीला चेहरे बघायला शिकवलं गेलं; पण त्यांत चिनी-कोरियन चेहऱ्यांचा समावेश नव्हता.

जॅकीच्या ट्वीटमुळे गूगलची तत्कालिक बदनामी झाली. गूगलनं यावर उपाय शोधल्याचा आणि हा प्रश्न सोडवण्याचा दावा केला. २०१८ साली, मूळ ट्वीटवादळानंतर तीनेक वर्षांनी, ‘वायर्ड’ नावाच्या प्रसिद्ध तंत्रज्ञानविषयक नियतकालिकानं या दाव्याचा तपास घेतला. (इंग्लिश/ हिंदी/ मराठीतलं ‘द वायर’ निराळं.)

गोरीला हे एक प्रकारचे प्रायमेट आहेत, माणसांसारखेच. तसेच चिम्पान्झी, गिबन, बबून्स वगैरे. ‘वायर्ड’च्या लोकांनी या सगळ्या प्रतिमा गूगलमध्ये शोधल्या, चिम्पान्झी, बबून, गोरीला, गिबन, मार्मोसेट, वगैरे. त्यांत गूगलनं चिम्पान्झी आणि गोरीला वगळता बाकी सगळ्या प्रजातींचे फोटो बरोबर दाखवले. पण चिम्पान्झी आणि गोरीला सापडले नाहीत. त्याच्याच जोडीला ‘वायर्ड’वाल्यांनी ‘काळे पुरुष’ आणि ‘काळ्या स्त्रिया’ असंही शोधलं. त्यात फक्त काळे-पांढरे कपडे घातलेले स्त्री-पुरुष सापडले.

घपला कमी करण्याजागी गूगलनं आणखी जुमला केला. फोटोंना जी लेबलं लावायची, त्यांतून चिम्पान्झी, गोरीला, काळे पुरुष, काळ्या स्त्रिया, ही लेबलंच काढून टाकली. फोटोंचं वर्गीकरण सोवळं दिसायला लागलं; पण मूळ प्रश्न तसाच राहिला.

तो काय असायला हवा? गूगल किंवा विदावैज्ञानिक योग्य प्रश्न विचारतात का? ते पुढच्या भागांमध्ये बघू.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com

First Published on May 15, 2019 12:06 am

Web Title: vidabhan article by sanhita joshi 14