कृत्रिम बुद्धिमत्तेवर आधारित असलेली चॅटजीपीटीसारखी टूल्स आश्चर्यकारक असा अनुभव देणारी आहेत. विशेषतः चॅटजीपीटाचा उदय झाल्यापासून कृत्रिम बुद्धिमत्ता अर्थात एआयचा सगळीकडेच बोलबाला झालेला दिसतोय. मात्र कृत्रिम बुद्धिमत्तेवर आधारीत टूल्स सर्वच भाषांमध्ये सध्यातरी काम करत नाहीत. त्यामुळे इंग्रजी भाषेत मिळणारा परिपक्व असा अनुभव मातृभाषेत मिळू शकत नाही. डिजिटल सपोर्ट आणि एआय टूल्सवर काही भाषांचीच मक्तेदारी आहे किंवा त्या भाषांमध्येच ही टूल्स उत्तमरित्या काम करत आहेत. त्यामुळे इतर भाषांनाही डिजिटल स्पेस मिळावी, यासाठी जगभरातील संशोधक, सॉफ्टवेअर क्षेत्रातमध्ये काम करणारे तंत्रज्ञ पुढे येऊन काम करत आहेत. अवघे डिजिटल विश्वच इंग्रजीने व्यापलेले आहे की, त्याला इतर भाषा आव्हान देऊ शकत नाही.

कृत्रिम बुद्धिमत्तेवर (AI) आधारीत टूल्सबाबत माहिती देताना इथियोपियातील मेकदेस गेब्रेवॉल्ड म्हणाल्या की, त्यांच्या भाषेतील मजकुराला मशीन ट्रान्सलेशन करण्यातही अडचण येते. अम्हारिक (Amharic) ही इथियोपियाची भाषा आहे. मेकदेस म्हणतात की, गुगल ट्रान्सलेटर सारख्या टूलमध्ये अम्हारिक भाषेचे भाषांतर करण्यात अडचणी येतात. मेकदेस गेब्रेवॉल्ड या इथियोपियाची राजधानी अदिस अबाबा येथील अशागरी कन्सलटन्सीच्या संस्थापक आहेत. मेकदेस प्रमाणे आपल्याला मराठी भाषेबाबतही हाच अनुभव कमी- जास्त प्रमाणात येतो. मराठी भाषेचे इंग्रजीत भाषांतर करत असताना गुगल ट्रान्सलेटर वापरले तर कधी कधी अर्थाचा अनर्थ झाल्याचे आपल्या लक्षात येते. याचे कारणच असे की आपल्या भाषेचा जेवढा मजकूर मशीन लर्निंगला पुरविण्यात आला आहे, तो अपुरा आहे.

Indian advertising, Diversity,
भारतीय जाहिरातींतील विविधता हरवली! ॲडव्हर्टायझिंग स्टँडर्ड्स कौन्सिल ऑफ इंडियाचा अहवाल काय सांगतो…
google steps to lay off more employees
गूगलकडून कर्मचारी कपातीचे पाऊल; भारतासह इतर देशांमध्ये काही व्यवसायांचे स्थलांतर करणार
Elon Musk
टेस्लातील १० टक्के कर्मचाऱ्यांच्या नोकऱ्यांवर कुऱ्हाड, एलॉन मस्क यांनी मेलद्वारे दिला इशारा; म्हणाले, “खर्च कमी करण्यासाठी…”
iPhone users in 91 countries warned to beware of Pegasus like spyware
‘पेगॅसस’सारख्या स्पायवेअरपासून सावधान! ९१ देशांतील आयफोन वापरकर्त्यांना इशारा

मेकदेस गेब्रेवॉल्ड यांच्यासारखाच कोट्यवधी लोकांना त्यांच्या भाषा भिन्नतेमुळे कुत्रिम बुद्धिमत्तेशी निगडित असलेल्या टूल्सचा किंवा सॉफ्टवेअरचा म्हणावा तसा वापर करता येत नाही. ही अडचण नव्याने आलेल्या एआय टूल्स चॅटजीपीटी किंवा भाषांतराची सेवा देणाऱ्या गुगल ट्रान्सलेटमध्येच जाणवते असे नाही, तर अशाचप्रकारची सेवा देणाऱ्या इतर अनेक सॉफ्टवेअरमध्ये अशीच अडचण येते. ऑटोकम्प्लिट, ट्रान्सस्क्रिप्शन सेवा, व्हॉइस असिस्टंट आणि सोशल मीडियावरील कटेंट मॉडरेशनची कामे इतर भाषांमध्ये तितक्या सहजतेने किंवा अचूक पद्धतीने होत नाहीत. भाषेची ही अडचण दूर करून टूल्स अद्ययावत करण्यासाठी काही लोक झटत आहेत.

एआय टूल्सवर अनेक भाषा काम का नाही करत?

आधुनिक एआय टूल्स हे ऑटोकम्प्लिट टूल्सचे अद्ययावत स्वरुप आहे. या टूल्सला जी माहिती पुरविली जाते, त्यावरच आधारीत उत्तर अशा टूल्सकडून मिळते. एआय अभियंते इंटरनेटवर उपलब्ध असलेला अवाढव्य असा मजकूर एआयची बौद्धिक क्षमता विकसित करण्यासाठी वापरतात. याला ते ‘ट्रेनिंग डेटा’ असे म्हणतात. जेवढा ट्रेनिंग डेटा एआयला मिळतो, त्यावरच आधारित त्याचे उत्तर असते. ट्रेनिंग डेटा मिळवण्याचे उत्तम साधन म्हणजे इंटरनेटवर उपलब्ध असलेल्या वेबसाईटचा डेटा क्रॉल करणे. इंटरनेटवर मुक्त वापरासाठी उपलब्ध असलेली कोट्यवधी वेबपेजेस आहेत. या सगळ्यापासून ६० टक्के उदाहरणे चॅटजीपीटीच्या ३.५ व्हर्जनला तयार करण्यासाठी वापरली जात आहेत.

ट्रेनिंग डेटाच्या भरवशावर एआय टूल्सची बौद्धिक क्षमता अवलंबून असल्यामुळे ज्या भाषांमधील डेटा तुटपुंजा आहे, त्या भाषेत एआय टूल्सकडून आपल्याला फारसे काही मिळत नाही. इंटरनेटची सुरुवात झाल्यानंतर इंग्रजी भाषेचाच त्यावर अधिक प्रभाव राहिल्यामुळे सुरुवातीपासूनच इतर भाषांना या अडचणीचा सामना करावा लागला आहे. सध्या इंटरनेटवर उपलब्ध असलेल्या एकूण पेजेसपैकी अर्ध्याहून अधिक पेजेस इंग्रजी भाषेमधील आहेत.

अम्हारिक (Amharic) आणि इतर आफ्रिकन, अमेरिकन किंवा भारतीय उपखंडातील भाषांमध्ये ०.१ पेक्षाही कमी पेजेस उपलब्ध आहेत. या भाषांचा उपलब्ध डिजिटल डेटा अतिशय कमी असल्यामुळे त्यांना कमी संसाधने असलेली भाषा म्हटले जाते. डिजिटल व्यासपीठावर अतिशय कमी प्रमाणात उपलब्ध असलेल्या या भाषा जगभरात सर्वाधिक बोलल्या जातात. या श्रेणीमध्ये सर्वाधिक बोलल्या जाणाऱ्या हिंदी, अरेबिक आणि बंगाली या भाषांचाही समावेश आहे. आशियाई आणि सर्व आफ्रिकन भाषेच्या तुलनेत युरोपियन भाषांचा वावर डिजिटल व्यासपीठावर अधिक आहे. इंटरनेटवर कोणत्या भाषा मागे पडल्या आहेत किंवा त्यांचे स्थान काय हे जाणून घेण्यासाठी ‘एआय’ हा एक चांगला पर्याय आहे.

डच भाषेचे उदाहरण घेऊ. डच ही दोन कोटी लोकांची प्रथम भाषा आहे. अम्हारिक एवढीच डच बोलणाऱ्यांची संख्या आहे. तरीही सर्वाधिक बोलल्या जाणाऱ्या हिंदी भाषेपेक्षा जवळपास ७०० पट अधिक डच भाषेचा क्रॉल डेटाबेस आहे. ३० कोटीहून अधिक लोक हिंदी भाषा बोलतात. त्या तुलनेत डच भाषेचे डिजिटल व्यासपीठावरील अस्तित्व कितीतरी पट अधिक आहे.

‘एआय’ मधील भाषेची कमतरता कशी भरून निघेल?

इथियोपिया मधील अम्हारिक आणि टिग्रीन्या या भाषेचे मशीन लर्निंग आणि स्पीच टेकनॉलॉजी विकसित करण्यासाठी अस्मेलॅश टेका हॅदगू (Asmelash Teka Hadgu) यांची लेसन एआय (Lesan AI) ही स्टार्टअप कंपनी काम करत आहे. अम्हारिक आणि टिग्रीन्या भाषांमध्ये इंटरनेटवर फारसा मजकूर उपलब्ध नसल्याने लेसन एआय कंपनी या भाषांमधील कम्युनिटीसोबत संवाद साधून त्यांच्याकडून भाषेचा कॉण्टेंट तयार करून घेण्याचे काम करते. “आम्ही शक्यतो विद्यार्थ्यांना घेऊन काम करतो. त्यांचे त्यांच्या भाषेवर विशेष प्रेम आहे. आम्ही जेव्हा त्यांना या भाषेचा डेटाबेस तयार करत असल्याचे सांगितले, तेव्हा त्यांनी अतिशय आनंदीत होऊन या कामात सहभागी होण्याची इच्छा दर्शविली. त्यानंतर आम्ही त्यांना टास्क देऊन आमच्या भाषेतील माहिती गोळा करण्याचे काम सुरू केले. या कामात आम्हीही त्यांना मदत करतो, तसेच यासाठी त्यांना आर्थिक मोबदलाही दिला जातो”, अशी प्रतिक्रिया अस्मेलॅश टेका हॅदगू यांनी डॉइश वेली
या वेबसाइटला दिली.

“पण वाटते तितके हे काम सोपे नाही. यासाठी बरेच शारीरिक कष्ट करावे लागते. मजकूर जमा करणाऱ्यांना उच्चप्रतीचा मजकूर पहिल्यांदा हेरावा लागतो. विश्वासार्ह पुस्तके किंवा वृत्तपत्रांचे डिजिटायजेशन आणि ज्या भाषेत मशीनला ते पुरवायचे आहे, त्या भाषेत भाषांतरीत करावे लागते. एवढे उपद्व्याप केल्यानंतर मूळ मजकूर आणि भाषांतरीत केलेला मजकूर यामधीळ वाक्य न वाक्य तपासून मशीन लर्निंग प्रक्रियेसाठी द्यावा लागतो.”, अशी माहिती हॅदगू यांनी दिली. हे अतिशय किचकट स्वरुपाचे आणि वेळखाऊ काम असल्यामुळे लेसनसारखी एआय कंपनी इंग्रजी भाषेएवढा कोट्यवधी पेजेस असलेला मजकूर निर्माण करू शकत नाही. पण लेसन अथक मेहनतीनंतर अम्हारिक आणि टिग्रीन्या भाषेत सेवा देण्यासाठी गुगल ट्रान्सलेटरलाही मागे टाकले आहे.

आम्ही दाखवून दिले आहे की, काळजीपूर्वक संपादित केलेला छोट्या स्वरुपातील डेटाच्या आधारावर वापर करण्याजोगी मॉडेल्स तयार करता येतात. आम्हाला यातील क्षमता आणि मर्यादा दोन्हींची कल्पना आहे, असेही हॅदगू म्हणाले.

अधिक भाषांना डिजिटल व्यासपीठ हवे

लेसनचा दृष्टिकोन अद्वितीय किंवा विलक्षण नाही. जगभरात यासारखे अनेक प्रकल्प या आधी यशस्वीरित्या पूर्ण करण्यात आले आहेत, तेही डिजिटल क्षितिजावर अतिशय कमी प्रमाणात अस्तित्त्वात असलेल्या भाषांवर याआधी काम झालेले आहे.

एसआयएल इंटरनॅशनल या एनजीओने जागतिक पातळीवरील ७,१६८ भाषांचा ‘एथनोलॉग’ (Ethnologue) या संकेतस्थळावर डेटाबेस तयार केला आहे. या संकेतस्थळाने अम्हारिक या भाषेचा डिजिटल लँग्वेज सपोर्ट दर्शविण्यासाठी व्हायटल (Vital) ही श्रेणी दिली आहे. या श्रेणीचा अर्थ असो होतो की, ही भाषेला फारसा डिजिटल सपोर्ट नाही. मात्र या भाषेचा काही मजकूर इंटरनेटवर उपलब्ध आहे. तसेच मशीन ट्रान्सलेशन टूल्स, स्पेलचेक आणि स्पीच प्रोसेसिंग उपलब्ध आहे.

कुतुहल म्हणून आम्ही मराठी भाषेला किती डिजिटल सपोर्ट आहे, हे पाण्यासाठी ‘एथनोलॉग’च्या वेबसाइटवर शोधून पाहिले. तर अम्हारिका आणि मराठी भाषेचा डिजिटल सपोर्टमध्ये फारसा फरक नसल्याचे लक्षात आले. मराठीसारख्याच जगभरातील हजारो भाषा कोट्यवधी लोकांकडून बोलल्या जातात. इंटरनेटवरही त्यांचे लाखो वापरकर्ते असले तरी त्या भाषांमधील मजकूर इंग्रजीच्या तुलनेत कमीच आहे. त्यामुळे एआय सारख्या डिजिटल टूल वापरताना काही प्रमाणात अडचणींचा सामना करावा लागतो.

अस्मेलॅश टेका हॅदगू (Asmelash Teka Hadgu) हे आफ्रिकतेली एआय तंत्रज्ञानाचे प्रणेते मानले जातात. आफ्रिका, युरोप आणि नॉर्थ अमेरिकेमधील ‘डिस्ट्रिब्युटेड एआय रिसर्च इन्स्टिट्यूट’ (DAIR) या संशोधकांच्या गटात सहसंशोधक म्हणून त्यांनी काम केले आहे. डॉइश वेली संकेतस्थळाशी बोलताना हॅदगू म्हणाले की, अम्हारिका भाषा बोलणाऱ्या समाजामधूनच काही लोक आम्ही निवडले असून ते डिजिटल डेटाबेस तयार करण्यात मदत करत आहेत. तसेच याबदल्यात त्यांना आर्थिक मोबदला दिला जातो. आफ्रिकेच्या बाहेर असलेले जगभरातील इतर संशोधक हेदेखील त्यांच्या स्थानिक भाषांसाठी काम करत आहेत.

“प्रतिभा सगळीकडेच आहे, पण संधी सर्वठिकाणी नाही”, असे लाखमोलाचे विधान हॅदगू यांनी केले. ते पुढे म्हणाले, “जर समजा तुम्हाला घाणा देशातील भाषेचे अतिशय उत्तम मशीन ट्रान्सलेशन तंत्रज्ञान बनवायचे असेल तर त्यासाठी घाणा देशाची भाषा बोलणाऱ्या, उत्साही लेखकांची गरज आहे. जे आपली भाषा डिजिटल व्यासपीठावर पुढे आणण्यासाठी झपाटून काम करण्याची तयारी ठेवतील.”