scorecardresearch

Premium

मशिन ट्रान्सलेशन मराठीसारख्या भाषांत कुचकामी का ठरत आहे?

चॅटजीपीटी ते गुगल ट्रान्सलेट सारखी एआय टूल्स जगातील कोट्यवधी वापरकर्त्यांना त्यांच्या भाषेत अजूनही वापरता येत नाहीत. यात बदल घडविण्यासाठी आफ्रिकेतील स्टार्टअप्स आणि काही संशोधक मेहनत घेत आहेत.

artificial intelligence
कृत्रिम बुद्धिमत्तेमधील टूल्स अजूनही आपल्या मातृभाषेत चांगल्या पद्धतीने वापरता येत नाही. (Photo – Reuters)

कृत्रिम बुद्धिमत्तेवर आधारित असलेली चॅटजीपीटीसारखी टूल्स आश्चर्यकारक असा अनुभव देणारी आहेत. विशेषतः चॅटजीपीटाचा उदय झाल्यापासून कृत्रिम बुद्धिमत्ता अर्थात एआयचा सगळीकडेच बोलबाला झालेला दिसतोय. मात्र कृत्रिम बुद्धिमत्तेवर आधारीत टूल्स सर्वच भाषांमध्ये सध्यातरी काम करत नाहीत. त्यामुळे इंग्रजी भाषेत मिळणारा परिपक्व असा अनुभव मातृभाषेत मिळू शकत नाही. डिजिटल सपोर्ट आणि एआय टूल्सवर काही भाषांचीच मक्तेदारी आहे किंवा त्या भाषांमध्येच ही टूल्स उत्तमरित्या काम करत आहेत. त्यामुळे इतर भाषांनाही डिजिटल स्पेस मिळावी, यासाठी जगभरातील संशोधक, सॉफ्टवेअर क्षेत्रातमध्ये काम करणारे तंत्रज्ञ पुढे येऊन काम करत आहेत. अवघे डिजिटल विश्वच इंग्रजीने व्यापलेले आहे की, त्याला इतर भाषा आव्हान देऊ शकत नाही.

कृत्रिम बुद्धिमत्तेवर (AI) आधारीत टूल्सबाबत माहिती देताना इथियोपियातील मेकदेस गेब्रेवॉल्ड म्हणाल्या की, त्यांच्या भाषेतील मजकुराला मशीन ट्रान्सलेशन करण्यातही अडचण येते. अम्हारिक (Amharic) ही इथियोपियाची भाषा आहे. मेकदेस म्हणतात की, गुगल ट्रान्सलेटर सारख्या टूलमध्ये अम्हारिक भाषेचे भाषांतर करण्यात अडचणी येतात. मेकदेस गेब्रेवॉल्ड या इथियोपियाची राजधानी अदिस अबाबा येथील अशागरी कन्सलटन्सीच्या संस्थापक आहेत. मेकदेस प्रमाणे आपल्याला मराठी भाषेबाबतही हाच अनुभव कमी- जास्त प्रमाणात येतो. मराठी भाषेचे इंग्रजीत भाषांतर करत असताना गुगल ट्रान्सलेटर वापरले तर कधी कधी अर्थाचा अनर्थ झाल्याचे आपल्या लक्षात येते. याचे कारणच असे की आपल्या भाषेचा जेवढा मजकूर मशीन लर्निंगला पुरविण्यात आला आहे, तो अपुरा आहे.

Honor 90 to be available discounted price on amazon great indian festival sale
Amazon Great Indian Festival Sale 2023: २०० मेगापिक्सलचा कॅमेरा असणाऱ्या Honor च्या ‘या’ स्मार्टफोनवर मिळणार ११ हजारांचा डिस्काउंट, ऑफर्स पाहाच
whatsapp ban 74 lakh indian accounts in august 2023
WhatsApp ची मोठी कारवाई; भारतात तब्बल ७४ लाखांपेक्षा अधिक अकाउंट्सवर घातली बंदी, काय आहे कारण?
girls highly creative way to cheating in exams video goes viral on social media
परीक्षेत कॉपी करण्यासाठी तरुणींचा भन्नाट जुगाड; कुर्त्याचा केला असा वापर; Video पाहून युजर्स म्हणाले…
moto edge40 neo launch in india
५० मेगापिक्सलच्या कॅमेऱ्यासह भारतात लॉन्च झाला MoTo चा ‘हा’ भन्नाट स्मार्टफोन, किंमत आणि ऑफर्स एकदा पाहाच

मेकदेस गेब्रेवॉल्ड यांच्यासारखाच कोट्यवधी लोकांना त्यांच्या भाषा भिन्नतेमुळे कुत्रिम बुद्धिमत्तेशी निगडित असलेल्या टूल्सचा किंवा सॉफ्टवेअरचा म्हणावा तसा वापर करता येत नाही. ही अडचण नव्याने आलेल्या एआय टूल्स चॅटजीपीटी किंवा भाषांतराची सेवा देणाऱ्या गुगल ट्रान्सलेटमध्येच जाणवते असे नाही, तर अशाचप्रकारची सेवा देणाऱ्या इतर अनेक सॉफ्टवेअरमध्ये अशीच अडचण येते. ऑटोकम्प्लिट, ट्रान्सस्क्रिप्शन सेवा, व्हॉइस असिस्टंट आणि सोशल मीडियावरील कटेंट मॉडरेशनची कामे इतर भाषांमध्ये तितक्या सहजतेने किंवा अचूक पद्धतीने होत नाहीत. भाषेची ही अडचण दूर करून टूल्स अद्ययावत करण्यासाठी काही लोक झटत आहेत.

एआय टूल्सवर अनेक भाषा काम का नाही करत?

आधुनिक एआय टूल्स हे ऑटोकम्प्लिट टूल्सचे अद्ययावत स्वरुप आहे. या टूल्सला जी माहिती पुरविली जाते, त्यावरच आधारीत उत्तर अशा टूल्सकडून मिळते. एआय अभियंते इंटरनेटवर उपलब्ध असलेला अवाढव्य असा मजकूर एआयची बौद्धिक क्षमता विकसित करण्यासाठी वापरतात. याला ते ‘ट्रेनिंग डेटा’ असे म्हणतात. जेवढा ट्रेनिंग डेटा एआयला मिळतो, त्यावरच आधारित त्याचे उत्तर असते. ट्रेनिंग डेटा मिळवण्याचे उत्तम साधन म्हणजे इंटरनेटवर उपलब्ध असलेल्या वेबसाईटचा डेटा क्रॉल करणे. इंटरनेटवर मुक्त वापरासाठी उपलब्ध असलेली कोट्यवधी वेबपेजेस आहेत. या सगळ्यापासून ६० टक्के उदाहरणे चॅटजीपीटीच्या ३.५ व्हर्जनला तयार करण्यासाठी वापरली जात आहेत.

ट्रेनिंग डेटाच्या भरवशावर एआय टूल्सची बौद्धिक क्षमता अवलंबून असल्यामुळे ज्या भाषांमधील डेटा तुटपुंजा आहे, त्या भाषेत एआय टूल्सकडून आपल्याला फारसे काही मिळत नाही. इंटरनेटची सुरुवात झाल्यानंतर इंग्रजी भाषेचाच त्यावर अधिक प्रभाव राहिल्यामुळे सुरुवातीपासूनच इतर भाषांना या अडचणीचा सामना करावा लागला आहे. सध्या इंटरनेटवर उपलब्ध असलेल्या एकूण पेजेसपैकी अर्ध्याहून अधिक पेजेस इंग्रजी भाषेमधील आहेत.

अम्हारिक (Amharic) आणि इतर आफ्रिकन, अमेरिकन किंवा भारतीय उपखंडातील भाषांमध्ये ०.१ पेक्षाही कमी पेजेस उपलब्ध आहेत. या भाषांचा उपलब्ध डिजिटल डेटा अतिशय कमी असल्यामुळे त्यांना कमी संसाधने असलेली भाषा म्हटले जाते. डिजिटल व्यासपीठावर अतिशय कमी प्रमाणात उपलब्ध असलेल्या या भाषा जगभरात सर्वाधिक बोलल्या जातात. या श्रेणीमध्ये सर्वाधिक बोलल्या जाणाऱ्या हिंदी, अरेबिक आणि बंगाली या भाषांचाही समावेश आहे. आशियाई आणि सर्व आफ्रिकन भाषेच्या तुलनेत युरोपियन भाषांचा वावर डिजिटल व्यासपीठावर अधिक आहे. इंटरनेटवर कोणत्या भाषा मागे पडल्या आहेत किंवा त्यांचे स्थान काय हे जाणून घेण्यासाठी ‘एआय’ हा एक चांगला पर्याय आहे.

डच भाषेचे उदाहरण घेऊ. डच ही दोन कोटी लोकांची प्रथम भाषा आहे. अम्हारिक एवढीच डच बोलणाऱ्यांची संख्या आहे. तरीही सर्वाधिक बोलल्या जाणाऱ्या हिंदी भाषेपेक्षा जवळपास ७०० पट अधिक डच भाषेचा क्रॉल डेटाबेस आहे. ३० कोटीहून अधिक लोक हिंदी भाषा बोलतात. त्या तुलनेत डच भाषेचे डिजिटल व्यासपीठावरील अस्तित्व कितीतरी पट अधिक आहे.

‘एआय’ मधील भाषेची कमतरता कशी भरून निघेल?

इथियोपिया मधील अम्हारिक आणि टिग्रीन्या या भाषेचे मशीन लर्निंग आणि स्पीच टेकनॉलॉजी विकसित करण्यासाठी अस्मेलॅश टेका हॅदगू (Asmelash Teka Hadgu) यांची लेसन एआय (Lesan AI) ही स्टार्टअप कंपनी काम करत आहे. अम्हारिक आणि टिग्रीन्या भाषांमध्ये इंटरनेटवर फारसा मजकूर उपलब्ध नसल्याने लेसन एआय कंपनी या भाषांमधील कम्युनिटीसोबत संवाद साधून त्यांच्याकडून भाषेचा कॉण्टेंट तयार करून घेण्याचे काम करते. “आम्ही शक्यतो विद्यार्थ्यांना घेऊन काम करतो. त्यांचे त्यांच्या भाषेवर विशेष प्रेम आहे. आम्ही जेव्हा त्यांना या भाषेचा डेटाबेस तयार करत असल्याचे सांगितले, तेव्हा त्यांनी अतिशय आनंदीत होऊन या कामात सहभागी होण्याची इच्छा दर्शविली. त्यानंतर आम्ही त्यांना टास्क देऊन आमच्या भाषेतील माहिती गोळा करण्याचे काम सुरू केले. या कामात आम्हीही त्यांना मदत करतो, तसेच यासाठी त्यांना आर्थिक मोबदलाही दिला जातो”, अशी प्रतिक्रिया अस्मेलॅश टेका हॅदगू यांनी डॉइश वेली
या वेबसाइटला दिली.

“पण वाटते तितके हे काम सोपे नाही. यासाठी बरेच शारीरिक कष्ट करावे लागते. मजकूर जमा करणाऱ्यांना उच्चप्रतीचा मजकूर पहिल्यांदा हेरावा लागतो. विश्वासार्ह पुस्तके किंवा वृत्तपत्रांचे डिजिटायजेशन आणि ज्या भाषेत मशीनला ते पुरवायचे आहे, त्या भाषेत भाषांतरीत करावे लागते. एवढे उपद्व्याप केल्यानंतर मूळ मजकूर आणि भाषांतरीत केलेला मजकूर यामधीळ वाक्य न वाक्य तपासून मशीन लर्निंग प्रक्रियेसाठी द्यावा लागतो.”, अशी माहिती हॅदगू यांनी दिली. हे अतिशय किचकट स्वरुपाचे आणि वेळखाऊ काम असल्यामुळे लेसनसारखी एआय कंपनी इंग्रजी भाषेएवढा कोट्यवधी पेजेस असलेला मजकूर निर्माण करू शकत नाही. पण लेसन अथक मेहनतीनंतर अम्हारिक आणि टिग्रीन्या भाषेत सेवा देण्यासाठी गुगल ट्रान्सलेटरलाही मागे टाकले आहे.

आम्ही दाखवून दिले आहे की, काळजीपूर्वक संपादित केलेला छोट्या स्वरुपातील डेटाच्या आधारावर वापर करण्याजोगी मॉडेल्स तयार करता येतात. आम्हाला यातील क्षमता आणि मर्यादा दोन्हींची कल्पना आहे, असेही हॅदगू म्हणाले.

अधिक भाषांना डिजिटल व्यासपीठ हवे

लेसनचा दृष्टिकोन अद्वितीय किंवा विलक्षण नाही. जगभरात यासारखे अनेक प्रकल्प या आधी यशस्वीरित्या पूर्ण करण्यात आले आहेत, तेही डिजिटल क्षितिजावर अतिशय कमी प्रमाणात अस्तित्त्वात असलेल्या भाषांवर याआधी काम झालेले आहे.

एसआयएल इंटरनॅशनल या एनजीओने जागतिक पातळीवरील ७,१६८ भाषांचा ‘एथनोलॉग’ (Ethnologue) या संकेतस्थळावर डेटाबेस तयार केला आहे. या संकेतस्थळाने अम्हारिक या भाषेचा डिजिटल लँग्वेज सपोर्ट दर्शविण्यासाठी व्हायटल (Vital) ही श्रेणी दिली आहे. या श्रेणीचा अर्थ असो होतो की, ही भाषेला फारसा डिजिटल सपोर्ट नाही. मात्र या भाषेचा काही मजकूर इंटरनेटवर उपलब्ध आहे. तसेच मशीन ट्रान्सलेशन टूल्स, स्पेलचेक आणि स्पीच प्रोसेसिंग उपलब्ध आहे.

कुतुहल म्हणून आम्ही मराठी भाषेला किती डिजिटल सपोर्ट आहे, हे पाण्यासाठी ‘एथनोलॉग’च्या वेबसाइटवर शोधून पाहिले. तर अम्हारिका आणि मराठी भाषेचा डिजिटल सपोर्टमध्ये फारसा फरक नसल्याचे लक्षात आले. मराठीसारख्याच जगभरातील हजारो भाषा कोट्यवधी लोकांकडून बोलल्या जातात. इंटरनेटवरही त्यांचे लाखो वापरकर्ते असले तरी त्या भाषांमधील मजकूर इंग्रजीच्या तुलनेत कमीच आहे. त्यामुळे एआय सारख्या डिजिटल टूल वापरताना काही प्रमाणात अडचणींचा सामना करावा लागतो.

अस्मेलॅश टेका हॅदगू (Asmelash Teka Hadgu) हे आफ्रिकतेली एआय तंत्रज्ञानाचे प्रणेते मानले जातात. आफ्रिका, युरोप आणि नॉर्थ अमेरिकेमधील ‘डिस्ट्रिब्युटेड एआय रिसर्च इन्स्टिट्यूट’ (DAIR) या संशोधकांच्या गटात सहसंशोधक म्हणून त्यांनी काम केले आहे. डॉइश वेली संकेतस्थळाशी बोलताना हॅदगू म्हणाले की, अम्हारिका भाषा बोलणाऱ्या समाजामधूनच काही लोक आम्ही निवडले असून ते डिजिटल डेटाबेस तयार करण्यात मदत करत आहेत. तसेच याबदल्यात त्यांना आर्थिक मोबदला दिला जातो. आफ्रिकेच्या बाहेर असलेले जगभरातील इतर संशोधक हेदेखील त्यांच्या स्थानिक भाषांसाठी काम करत आहेत.

“प्रतिभा सगळीकडेच आहे, पण संधी सर्वठिकाणी नाही”, असे लाखमोलाचे विधान हॅदगू यांनी केले. ते पुढे म्हणाले, “जर समजा तुम्हाला घाणा देशातील भाषेचे अतिशय उत्तम मशीन ट्रान्सलेशन तंत्रज्ञान बनवायचे असेल तर त्यासाठी घाणा देशाची भाषा बोलणाऱ्या, उत्साही लेखकांची गरज आहे. जे आपली भाषा डिजिटल व्यासपीठावर पुढे आणण्यासाठी झपाटून काम करण्याची तयारी ठेवतील.”

Latest Comment
View All Comments
Post Comment

मराठीतील सर्व लोकसत्ता विश्लेषण बातम्या वाचा. मराठी ताज्या बातम्या (Latest Marathi News) वाचण्यासाठी डाउनलोड करा लोकसत्ताचं Marathi News App.

Web Title: Why dont artificial intelligence ai tools work well in languages other than english kvg

First published on: 03-08-2023 at 17:28 IST

संबंधित बातम्या

मराठी कथा ×