Marathi Language and AI and how digital transformation affects regional languages: यंदा १० वीच्या परिक्षेत तब्बल ९४ हजार विद्यार्थी मराठीत नापास झाले आणि त्यानंतर आता डिजिटल युगात मराठी टिकणार की, ऱ्हास होणार अशी चर्चा सुरू झाली आहे. सध्या कृत्रित बुद्धीमत्ता अर्थात AI ची सर्वत्र मदत होत असेल तर मराठी टिकवण्यासाठीही AI करणार का मदत, अशीही चर्चा सुरू झाली आहे. आपण आता अशा वळणावर आहोत जिथे भाषा केवळ संवादाचे साधन राहिलेली नाही. आर्टिफिशियल इंटेलिजन्सच्या (AI) वेगवान प्रगतीमुळे मराठीसारख्या समृद्ध भाषेसमोर ‘डिजिटल अस्तित्वाचा’ मोठा प्रश्न उभा राहिला आहे.

भाषांच्या अस्तित्वासमोर नवे प्रश्नचिन्ह

डिजिटल क्रांतीच्या या टप्प्यावर भाषा ही केवळ संवादाचे माध्यम राहिलेली नाही, तर ती डेटा, अर्थव्यवस्था आणि सत्तेचे साधन ठरली आहे. Artificial Intelligence अर्थात AI आणि विशेषतः Large Language Models (LLMs) या तंत्रज्ञानाने जगभरातील भाषांच्या अस्तित्वासमोर एक नवे प्रश्नचिन्ह उभे केले आहे. डिजिटल डेटा ज्या भाषांकडे मुबलक उपलब्ध आहे, त्या डिजिटल युगात पुढे जातील, आणि ज्यांच्याकडे नाही त्या मागे पडतील, अशे तज्ज्ञ सांगतात. या पार्श्वभूमीवर मराठीसारख्या समृद्ध पण डिजिटलच्या मोजपट्टीवर तुलनेने खूपच कमी डेटा अर्थात ‘गरीब’ ठरणाऱ्या मराठी भाषेसाठी हा प्रश्न अधिक गंभीर ठरतो.

डेटाचा दुष्काळ: मराठीसमोरील सर्वात मोठे आव्हान

आज AI मॉडेल्सना प्रशिक्षित करण्यासाठी प्रचंड प्रमाणात मजकूर (text data) लागतो. इंग्रजी, चिनी, स्पॅनिश या भाषांमध्ये इंटरनेटवर अब्जावधी शब्दांचा साठा उपलब्ध आहे. त्याच्या तुलनेत मराठीचे डिजिटल अस्तित्व अत्यंत मर्यादित आहे. यालाच तज्ज्ञ ‘Data Poverty’ किंवा विदा गरीबी अथवा डेटाची गरीबी असे म्हणतात. उदाहरणार्थ, Marathi Wikipedia वरील लेखांची संख्या आणि दर्जा पाहिला, तर तो इंग्रजी किंवा हिंदीच्या तुलनेत खूपच कमी आहे. अनेक विषयांवर मराठीत माहितीच उपलब्ध नाही. परिणामी, AI मॉडेल जेव्हा मराठी शिकण्याचा प्रयत्न करते, तेव्हा त्याला पुरेसे ‘इनपुट’ उपलब्धच नसते.

AI and Marathi Language future impact | मराठी भाषा आणि कृत्रिम बुद्धिमत्ता आव्हाने | Digital Data Poverty in Marathi NLP | मराठी भाषेचे डिजिटल अस्तित्व आणि तंत्रज्ञान
मराठी आणि AI: डिजिटल डेटाचे भविष्य आणि आव्हाने (Image- Gemini)

डेटा-समृद्ध भाषांना प्राधान्य

Google आणि Microsoft सारख्या कंपन्या AI विकसित करताना डेटा-समृद्ध भाषांना प्राधान्य देतात. त्यामुळे मराठीसारख्या कमी डेटा उपलब्ध असलेल्या भाषा या स्पर्धेत मागे राहण्याची शक्यता अधिक असते.

मराठी LLM: स्पर्धा आणि संधी

भारत सरकारने सुरू केलेल्या Bhashini प्रकल्पाने या समस्येची दखल घेतली आहे. ‘भाषिनी’चा उद्देश भारतीय भाषांसाठी AI साधने विकसित करणे हा आहे. मराठीसाठीही भाषांतर, स्पीच रेकग्निशन (speech recognition), आणि टेक्स्ट जनरेशन यावर काम सुरू आहे.

तसेच, सावित्रीबाई फुले पुणे विद्यापीठातील भाषाविज्ञान आणि संगणकशास्त्र विभाग मराठी NLP (Natural Language Processing) वर संशोधन करत आहेत. मात्र, या प्रयत्नांची व्याप्ती सध्या तरी खूपच मर्यादित आहे आणि मराठीसाठी खाजगी क्षेत्रातील मोठ्या गुंतवणुकीची गरज अधिक आहे.

LLMs तयार करण्यासाठी केवळ डेटा नव्हे, तर उच्च दर्जाचे annotation (डेटाचे वर्गीकरण), भाषिक नियम, आणि संदर्भज्ञान आवश्यक असते. मराठीमध्ये या सर्व बाबी सध्या तरी प्राथमिक टप्प्यात आहेत.

सिंटॅक्स आणि संदर्भ

मराठी ही इंडो-आर्यन भाषा असून तिची वाक्यरचना (syntax) इंग्रजीपेक्षा वेगळी आहे. उदाहरणार्थ, इंग्रजीत Subject-Verb-Object (SVO) रचना असते, तर मराठीत Subject-Object-Verb (SOV) कर्ता- कर्म- क्रियापद रचना असते. याशिवाय, मराठीत विभक्ती प्रत्यय, लिंगभेद, आणि अनेक स्तरांवर संदर्भाधारित अर्थ (contextual meaning) वेगवेगळा असतो. उदाहरणार्थ, “तो आला” आणि “ती आली” यातील फरक केवळ शब्दांत नाही, तर संपूर्ण व्याकरणात असतो. AI साठी हे समजणे अत्यंत कठीण आहे. इंग्रजीसाठी तयार केलेले मॉडेल मराठीसाठी थेट लागू होऊ शकत नाहीत. त्यामुळे मराठीसाठी स्वतंत्र आणि सखोल भाषक मॉडेल तयार करणे आवश्यक ठरते.

डिजिटल मराठी: वापरकर्त्यांची भूमिका

AI च्या युगात भाषेचे भविष्य केवळ तंत्रज्ञान कंपन्यांवर अवलंबून नाही. तर सामान्य वापरकर्त्यांचाही त्यात खूप मोठा वाटा असणार आहे. आज मराठी वापरकर्ते सोशल मीडियावर मोठ्या प्रमाणात सक्रिय आहेत, पण बहुतेक वेळा “हिंग्लिश” किंवा रोमन लिपीत मराठी लिहिली जाते. यामुळे शुद्ध देवनागरीतील डेटा तयार होत नाही, आणि AI साठी उपयोगी ठरणारा संग्रहही तयार होत नाही. मराठी भाषकांनी ब्लॉग्स, लेख, संशोधन, आणि डिजिटल कंटेंट देवनागरीत तयार केला, तर AI साठी मोठ्याप्रमाणावर डेटा निर्माण होऊ शकतो. ही एक प्रकारची ‘डिजिटल चळवळ’च ठरू शकते.

शिक्षण आणि धोरण

मराठीच्या डिजिटल भविष्यासाठी शिक्षण क्षेत्रात बदल आवश्यक आहेत. शाळा आणि महाविद्यालयांमध्ये मराठी आणि तंत्रज्ञान यांचा संगम घडवून आणणे गरजेचे आहे. उदाहरणार्थ:

  • मराठीत कोडिंग आणि AI शिकवणे
  • मराठी NLP प्रकल्पांना प्रोत्साहन
  • ओपन-सोर्स डेटासेट तयार करणे

सरकार आणि शैक्षणिक संस्था यामध्ये महत्त्वाची भूमिका बजावू शकतात. भाषा ही केवळ सांस्कृतिक नव्हे, तर आर्थिक साधन आहे, ही जाणीव त्यासाठी धोरणकर्त्यांमध्ये असणे आवश्यक आहे.

भाषेचे डिजिटल मोजमाप

आपण ‘Digital Language Vitality’ म्हणजेच एखाद्या भाषेचे डिजिटल अस्तित्व मोजले, तर इंग्रजी आणि चिनी या भाषा वरच्या स्थानी आहेत. हिंदी काही प्रमाणात पुढे येत आहे, पण मराठी अजूनही कोसो मागे आहे. यासाठी एक साधे मापक विचारात घेता येईल:

  • इंटरनेटवरील मजकूराचे प्रमाण
  • Wikipedia लेखांची संख्या
  • AI मॉडेल्समधील प्रतिनिधित्व
  • डिजिटल साधनांची उपलब्धता

या सर्व निकषांमध्ये मराठीला अजून मोठा पल्ला गाठायचा आहे.

मराठी टिकणार का?

AI च्या युगात मराठीसारख्या भाषांसमोर दोन पर्याय आहेत. पहिला म्हणजे टिकून राहणे आणि दुसरा मागे पडणे. पण हा संघर्ष केवळ अस्तित्वाचा नाही, तर तो परिवर्तनाचा आहे. योग्य डेटा निर्माण करून त्यावर संशोधन आणि धोरणात्मक गुंतवणूकही करता आली, तर मराठी AI युगात केवळ टिकणारच नाही, तर वेगात पुढेही जाईल. अन्यथा, ती केवळ घरगुती आणि सांस्कृतिक वापरापुरती मर्यादित राहण्याचा धोका आहे.

AI मराठीला वाचवेल का?

अलीकडे असा प्रश्न विचारला जातो की, AI मराठीला वाचवेल का? तर या प्रश्नाचे उत्तर आपल्या म्हणजेच मराठी माणसाच्या कृतीमध्ये दडलेले असेल ते म्हणजे, आपण मराठीला AI साठी सज्ज करण्यास तयार आहोत का?

संदर्भ सूची (Reference List)

  1. Ministry of Electronics and Information Technology
  • Bhashini – National Language Translation Mission (NLTM)
  • अधिकृत संकेतस्थळ आणि अहवाल
  • भारतीय भाषांसाठी AI इकोसिस्टम उभारणी, भाषांतर, आवाज ओळख
  • Link: https://bhashini.gov.in
  1. Microsoft Research India
    “AI for Good: Language Inclusion” उपक्रम
    low-resource languages साठी language models
    multilingual AI systems व responsible AI धोरण
  2. Savitribai Phule Pune University
    Department of Linguistics & Computer Science – संशोधन प्रकल्प
    मराठी NLP, morphological analysis, POS tagging
    संशोधन पेपर्स (Indian Language Corpora Initiative शी संबंधित)
  3. Indian Institute of Technology Bombay
    CFILT (Center for Indian Language Technology)
    Indic NLP tools, WordNet, machine translation
    Link: https://www.cfilt.iitb.ac.in
  4. AI4Bharat
    Open-source datasets & models for Indian languages
    IndicTrans, IndicBERT