Digital preservation of tribal heritage through AI and innovative LLM technology in Maharashtra: महाराष्ट्राच्या दुर्गम भागातील आदिवासी बोलीभाषांचा मौखिक वारसा आता विस्मृतीत न जाता, उलट जपला जाईल अशी एक शक्यता निर्माण झाली आहे. कृत्रिम बुद्धिमत्ता म्हणजेच AI च्या माध्यमातून भिल्ल आणि कोरकू यांसारख्या भाषांचे ‘डिजिटल पुनरुज्जीवन’ करण्याची प्रक्रिया वेगाने सुरू झाली असून, यासाठी स्वतंत्र भाषा मॉडेल्स (LLM) विकसित केली जात आहेत.

डिजिटल विश्वात अस्तित्वच नाही

महाराष्ट्रातील मेळघाट, नंदुरबार, धुळे किंवा गडचिरोलीसारख्या भागांत अद्याप अनेक आदिवासी बोलीभाषा अशा आहेत, ज्या कधीच लेखी स्वरूपात आलेल्या नाहीत. या भाषांमध्ये अतिशय समृद्ध अशा लोककथा आहेत, त्यांना स्वतःचा इतिहास आहे आणि सर्वात महत्त्वाचं म्हणजे त्यामध्ये पर्यावरणविषयक ज्ञानाचा खूप मोठा साठा आहे. पण सध्याच्या डिजिटल विश्वामध्ये त्यांचे अस्तित्वच नाही. शिवाय सध्या शहरीकरणाचा रेटा एवढा जबरदस्त आहे की, त्यामुळे या आदिवासी बोलीभाषा हळूहळू नामशेष होण्याच्या मार्गावर आहेत. या बोलीभाषांची जपणूक करण्याचे एक मोठे आव्हान आपल्यासमोर ठाकले होते. आता अत्याधुनिक तंत्रज्ञान असलेल्या AI च्या माध्यमातून त्यावर मात करण्यासाठी प्रयत्न सुरू आहेत.

आदिवासी भाषांवर गंडांतर?

महाराष्ट्रातील भिल्ल (Bhili) आणि कोरकू (Korku) या भाषा याचे उत्तम उदाहरण आहेत. भिल्ल ही इंडो-आर्यन भाषाकुळातील असून महाराष्ट्रासह गुजरात, राजस्थानमध्ये बोलली जाते . तर कोरकू ही ऑस्ट्रो-एशियाटिक (Munda) भाषाकुळातील असून मेळघाट परिसरात प्रामुख्याने आढळते. अनेक आदिवासी बोलीभाषा या केवळ आणि केवळ मौखिक स्वरूपातच अस्तित्वात आहेत. आणि मौखिक परंपराच आता शहरीकरणाच्या रेट्याखाली आलेली असल्याने या बोलीभाषांवर आता नामशेष होण्याचे गंडातर आले आहे.

AI in Tribal Languages Maharashtra Bhili Korku | Digital Revival of Tribal Dialects using Artificial Intelligence | महाराष्ट्रातील आदिवासी बोलीभाषा आणि AI तंत्रज्ञान | भिल्ल आणि कोरकू भाषा पुनरुज्जीवन कृत्रिम बुद्धिमत्ता
कोरकू आदिवासी मुलगी नृत्य करताना (Image- Wikipedia)

अडचणी काय?

  • लिखित साहित्यात या भाषा अस्तित्त्वातच नाहीत किंवा त्यांचे प्रमाण अगदीच थोडके आहे.
  • शाळांमध्ये त्या भाषा शिकवल्या जात नाहीत.
  • डिजिटल माध्यमांमध्ये अस्तित्व नगण्य आहे.

यामुळे भाषाशास्त्रज्ञांच्या मते, एखाद्या भाषेचे अस्तित्व टिकवण्यासाठी आवश्यक असलेले तीनही घटक हे या बोलीभाषांच्या बाबतीत अस्तित्त्वात नाहीत. हे तीन महत्त्वाचे घटक म्हणजे documentation, transmission, and digital presence. आदिवासी बोलीभाषांच्या संदर्भात या तीनही बाबी क्षीण आहेत.

AI- भाषेच्या पुनरुज्जीवनाची नवी दिशा?

अलीकडे भारत सरकारने ‘Adi Vaani’ सारखे AI-आधारित प्लॅटफॉर्म सुरू केले आहेत. हे प्लॅटफॉर्म आदिवासी भाषांचे डिजिटायझेशन, भाषांतरण आणि दस्तावेजीकरण करतात. याशिवाय महाराष्ट्र सरकारनेही २०२६ साली भिल्ल भाषेसाठी स्वतंत्र Large Language Model (LLM) तयार करण्याची घोषणा केली आहे . हे अत्यंत महत्त्वाचे पाऊल आहे कारण:

  • एखाद्या आदिवासी भाषेसाठी स्वतंत्र AI मॉडेल तयार करण्याची ही पहिलीच खेप आहे
  • यामुळे भाषेचे ज्ञान फक्त लोकांच्या स्मरणात न राहता डिजिटल स्वरूपात जतन होईल

LLM मागचे विज्ञान नेमके काय?

LLM म्हणजे Large Language Model हे एक कृत्रिम बुद्धिमत्तेवर आधारित मॉडेल असून मोठ्या प्रमाणात एखाद्या मजकूरासंदर्भात प्रक्रिया करून ती भाषा शिकणे आणि सर्वात महत्त्वाचे म्हणजे भाषा समजून घेण्याचे काम याद्वारे केले जाते.

LLM कसे काम करते?

डेटा संकलन (Data Collection)
भाषेतील शब्द, वाक्ये, कथा, गाणी गोळा केली जातात

टोकनायझेशन (Tokenization)
मजकूर छोट्या भागांमध्ये (tokens) विभागला जातो

न्यूरल नेटवर्क प्रशिक्षण (Deep Learning)
ही टोकन्स वापरून प्रस्तुत मॉडेल भाषेचा पॅटर्न शिकते

प्रेडिक्शन (Prediction)
पुढचा शब्द किंवा वाक्य काय असेल, याचा अंदाज लावण्याचे काम मॉडेल करते

हे सर्व Natural Language Processing (NLP) या तंत्रज्ञानावर आधारित आहे.

मग समस्या काय?

भिल्ल, कोरकूसारख्या भाषांसंदर्भात एक मोठी समस्या भेडसावते, ती म्हणजे data scarcity, याचा अर्थ या भाषांचा डेटाच फार कमी उपलब्ध आहे.

  • इंटरनेटवर या भाषांमध्ये मजकूर जवळपास नाहीच, अशी स्थिती आहे
  • त्यांच्या व्याकरणाचे व्यवस्थित दस्तऐवजीकरण उपलब्ध नाही
  • विविध बोली (dialects) असल्यामुळे एकसंध डेटा तयार करणे अवघड आहे.

परिणामी, LLM या भाषांमध्ये अनेकदा चुकीचे भाषांतर करतात किंवा इतर प्रमुख भाषांमध्ये त्या शब्द वा वाक्यरचनेचा अर्थ काय असू शकेल, याचा अंदाज घेत तसे अर्थान्वयन करून LLM मोकळे होतात.

‘ह्यूमन-इन-द-लूप’ आणि सिंथेटिक डेटा

यासाठी वैज्ञानिकांनी काही नवीन उपाय त्यावर मात करण्यासाठी शोधले आहेत:

१. Community-driven data

स्थानिक लोकांकडून कथा, गाणी, संवाद रेकॉर्ड करून डेटा तयार केला जातो.

२. Human-in-the-loop validation

AI जे भाषांतर करते ते स्थानिक तज्ज्ञ तपासतात, त्यानंतरच त्याला अंतिम स्वरूप दिलं जातं.

३. Synthetic data generation

AI स्वतःच नवीन वाक्ये तयार करून डेटासेट वाढवत नेतं .

ही प्रक्रिया bootstrapping म्हणून ओळखली जाते.

भाषेचे डिजिटायझेशन

AI फक्त शब्दांचे फक्त भाषांतर करण्याचेच काम करत नाही, तर:

  • लोककथा आणि परंपरा जतन करते
  • स्थानिक औषधींचे ज्ञान, शेतीच्या पद्धती आदींच्या नोंदी करते
  • प्रशासन आणि शिक्षणासाठी भाषा उपलब्ध करून देते

उदाहरणार्थ, Adi Vaani मध्ये speech-to-text आणि text-to-speech सुविधा आहेत.

महाराष्ट्रातील प्रयोग आणि भविष्यातील मॉडेल?

महाराष्ट्रातील AI उपक्रमाचे विशेष महत्त्व:

  • राज्यस्तरावर भाषांसाठी AI धोरण तयार झाले आहे
  • शेती, शिक्षण आणि प्रशासनात स्थानिक भाषांचा वापर वाढवण्याचा प्रयत्न सुरू आहे
  • यामुळे आदिवासी समाज डिजिटल अर्थव्यवस्थेत सहभागी होऊ शकतो.

AI भाषा वाचवू शकते का?

तज्ज्ञांच्या मते, AI हा भाषा वाचविण्याच्या प्रयत्नाचा एक भाग आहे, हे त्यावरचे उत्तर नाही.

  • प्रकल्पाच्या मर्यादा:
  • शहरीकरणाच्या रेट्यामुळे पुढील पिढीने ती भाषा वापरणेच सोडून दिले, तर AI काहीही करू शकणार नाही
  • सांस्कृतिक संदर्भ समजणे AI ला कठीण जाते.

शक्यता काय?

  • डिजिटल आर्काइव्ह तयार होईल
  • शिक्षणासाठीही डेटा उपलब्ध होईल
  • भाषेचे पुनरुज्जीवन शक्य होईल

‘डेटा’ म्हणजेच नवे वारसा जतन

आजच्या काळात एखादी भाषा टिकण्यासाठी फक्त ती व्यवहारात बोलली जाणे पुरेसे नाही तर तिचा सर्वतोपरी डेटा उपलब्ध असणेही तितकेच आवश्यक आहे. तो डेटा उपलब्ध करून देण्याचे काम AI करते.

भिल्ल, कोरकू सारख्या भाषा आज विस्मृतीच्या वळणावर आहेत. AI मुळे त्यांना संजिवनी मिळू शकते.

तंत्रज्ञान तुम्हाला मदत करू शकते परंतु भाषेचा वापर करायचा की, नाही हे अंतिमतः माणसाच्याच हातात असणार आहे. अखेरीस भाषा जिवंत राहिली तर तीदेखील माणसामुळे जिवंत राहील!