अनिकेत शेवडे
महाराष्ट्राच्या प्रशासकीय आणि सामाजिक न्यायाच्या प्रक्रियेला आज एका अनपेक्षित संकटाने वेठीस धरले आहे, ते म्हणजे मोडी लिपी वाचणाऱ्या तज्ज्ञांची तीव्र टंचाई. मराठा समाजाला कुणबी प्रमाणपत्र देण्यासाठी आवश्यक असलेल्या ऐतिहासिक नोंदी शोधण्याचे काम राज्यभर सुरू असताना, प्रत्येक जिल्ह्यात किमान दोन मोडीतज्ज्ञ नेमण्याचा नियम कागदावरच राहिला आहे. परिणामी, हजारो अर्जदारांचे भवितव्य लाल फितीत अडकले आहे आणि शासनाची प्रक्रिया ठप्प झाली आहे. ही केवळ आरक्षणापुरती मर्यादित समस्या नाही, तर जमिनीचे वाद, वारसा हक्काचे दावे आणि न्यायालयीन प्रकरणांमध्येही ऐतिहासिक दस्तऐवजांची गरज भासते. या समस्येमुळे आपल्या ऐतिहासिक वारशाशी असलेली नाळही तुटण्याचा धोका आहे. एकट्या पुणे अभिलेखागारातील ३९ हजार ‘रुमालांमध्ये’ बंदिस्त तब्बल चार कोटी दस्तऐवजांपैकी ८० टक्के कागदपत्रे आजपर्यंत कोणी वाचलेलीच नाहीत. याचे कारणही मोडी लिपीतज्ज्ञांची कमतरता हेच आहे. आता पारंपरिक उपायांपलीकडे जाऊन तंत्रज्ञानाची मदत घेणे अटळ आहे.
एआय इतिहास वाचायला कसा शिकतो?
मोडी लिपीचे देवनागरीत लिप्यंतर करण्यासाठी अनेक प्रयत्न झाले आहेत पण आयआयटी रुरकी येथील प्रा. स्पर्श मित्तल आणि त्यांच्या टीमने विकसित केलेले MoScNet हे केवळ एक साधे सॉफ्टवेअर नसून यात अद्यायावत एआय प्रणालीचा वापर करण्यात आला आहे. व्हिजन-लँग्वेज मॉडेल (VLM): व्हीएलएम न्युरल नेटवर्कवर आधारित आहे. पारंपरिक ऑप्टिकल कॅरॅक्टर रेकग्निशन (OCR) किंवा हँडरायटिंग टेक्स्ट रेकग्निशन (HTR) तंत्रज्ञान अनेकदा अक्षरे किंवा जोडशब्द तोडून वाचण्याचा प्रयत्न करतात. मोडी लिपीच्या सलग आणि वळणदार ( cursive) स्वरूपामुळे ही पद्धत अयशस्वी ठरते. याउलट, व्हीएलएम दोन वेगवेगळ्या माहिती स्राोतांना जोडते: एक म्हणजे दस्तऐवजाचे दृश्य स्वरूप (image) आणि दुसरे म्हणजे त्यातील भाषिक मजकूर (text). हे मॉडेल मोडी लिपीतील शब्दांकडे केवळ तुटक अक्षरांचा समूह म्हणून पाहत नाही, तर एक सलग चित्र म्हणून पाहून त्यातील भाषिक नमुने ओळखते, ज्यामुळे ते मोडीच्या मूळ स्वरूपाला चांगल्या प्रकारे हाताळू शकते. MoScNet च्या कार्यक्षमतेमागे नॉलेज डिस्टिलेशन हे प्रगत तंत्रज्ञान आहे. यामध्ये एका मोठ्या, शक्तिशाली शिक्षक मॉडेलकडून एका लहान, सुटसुटीत विद्यार्थी मॉडेलला शिकवले जाते. विद्यार्थी मॉडेल मूळ शिक्षक मॉडेलपेक्षा १६३ पट लहान असूनही अधिक चांगली कामगिरी करत आहे. या तंत्रज्ञानाचा थेट परिणाम धोरणात्मकदृष्ट्या अत्यंत महत्त्वाचा आहे. यामुळे हे मॉडेल वापरण्यासाठी उच्च क्षमतेच्या महागड्या संगणकांची गरज नाही. अशा प्रकारचे मॉडेल जिल्हास्तरीय पुराभिलेखागार किंवा तहसील कार्यालयांसारख्या कमी-संसाधने असलेल्या ठिकाणीही वापरता येऊ शकते.
ट्रान्सफॉर्मर आर्किटेक्चर : ही रचना मॉडेलला शब्दांमधील अक्षरांचे एकमेकांशी असलेले संबंध समजून घेण्यास मदत करते. मोडी लिपीत एका अक्षराचे वळण त्याच्या आधीच्या आणि नंतरच्या अक्षरावर अवलंबून असते. हे तंत्रज्ञान नेमके हेच संदर्भ समजून घेते आणि त्यामुळेच ते मोडी लिपीतील जोडशब्द आणि सलग लेखनाच्या आव्हानांवर यशस्वीपणे मात करते. MoDeTrans डेटासेट: कोणत्याही एआय मॉडेलच्या यशाचा पाया त्याचा प्रशिक्षण डेटासेट असतो. MoScNet ला MoDeTrans नावाच्या डेटासेटवर प्रशिक्षित केले गेले आहे, ज्यामध्ये शिवकालीन, पेशवेकालीन आणि ब्रिटिशकालीन अशा तीन वेगवेगळ्या ऐतिहासिक कालखंडांतील २०४३ अस्सल मोडी दस्तऐवजांच्या प्रतिमा आणि तज्ज्ञांनी प्रमाणित केलेले त्यांचे देवनागरी लिप्यंतर यांचा समावेश आहे. या वैविध्यपूर्ण डेटासेटमुळे एआय वेगवेगळ्या हस्ताक्षर शैली, शाईचा फिकेपणा आणि कागदाचा जीर्णपणा यांसारख्या वास्तविक समस्या ओळखायला शिकला आहे. जुने ओसीआर (Optical Character Recognition) तंत्रज्ञान ‘अक्षर-तोडणी’मध्ये अडकते; मोडीसारख्या सलग, जीर्ण आणि विविध हस्ताक्षरांच्या कागदांसमोर ते हात टेकते. एआय नमुना-आणि-संदर्भ शिकते, ज्यामुळे शाईचा फिकेपणा, कागदाची घडण, जोडाक्षरांची वळणं सांभाळत मोठ्या प्रमाणावर अधिक अचूक लिप्यंतर देते; वर मानव-तपासणीचा थर दिला की वेग, खर्च आणि प्रमाण तर तिन्ही आघाड्यांवर ती विद्यामान तंत्रांवर भारी ठरते. MoScNet ने सिद्ध केलेले तांत्रिक मॉडेल भारतातील आणि जगभरातील इतर अनेक लुप्तप्राय किंवा गुंतागुंतीच्या लिपींच्या संवर्धनासाठी एक आदर्श नमुना उपलब्ध करून देते.
संशोधन आणि प्रशासन यांच्यातील दरी
MoScNetच्या विकासाशी संबंधित सर्व संशोधननिबंध आणि बातम्यांमध्ये प्रा. स्पर्श मित्तल आणि आयआयटी रुरकीच्या टीमचे श्रेय नमूद आहे. यामध्ये पुणे येथील सीओईपी आणि विश्वकर्मा इन्स्टिट्यूट ऑफ इन्फॉर्मेशन टेक्नॉलॉजीच्या विद्यार्थ्यांचेही योगदान आहे, परंतु पेपरात त्यांची संस्थात्मक संलग्नता म्हणून दिलेली नाही. मात्र, या संपूर्ण प्रक्रियेत कुठेही महाराष्ट्र शासन, राज्य पुराभिलेखागार किंवा शासनाच्या कोणत्याही विभागाकडून निधी, सहकार्य किंवा मागणी असल्याचा उल्लेख नाही. यावरून हे स्पष्ट होते की, MoScNet हा उपक्रम हे मुख्यत: स्वतंत्र शैक्षणिक संशोधनावर आधारित आहेत. ही बाब शासनासाठी एक संधी आहे.
सध्याच्या प्रयत्नांचे मूल्यांकन
राज्यात आणि राज्याबाहेर मोडी लिपीवर काही प्रमाणात काम सुरू आहे. तमिळनाडूतील तंजावर येथील तमिळ विद्यापीठात मोडी दस्तऐवजांच्या डिजिटायझेशनसाठी महाराष्ट्र शासनाने काही प्रमाणात निधी दिला आहे. तसेच, विविध शैक्षणिक संस्थांनी काही डेटासेट तयार केले आहेत, परंतु ते बहुतेकदा लहान आणि केवळ सुट्या अक्षरांच्या ओळखीवर केंद्रित आहेत, संपूर्ण दस्तऐवजाच्या लिप्यंतरावर नाहीत. पुणे पुराभिलेखागारातही २०१३ पासून डिजिटायझेशनचे प्रयत्न सुरू आहेत. या प्रयत्नांत एकसूत्रतेचा अभाव आहे. त्याऐवजी एका केंद्रीय, धोरणात्मक आणि एकात्मिक दृष्टिकोनाची गरज आहे.
धोरणात्मक आराखडा
यासाठी एका ठोस आणि कृतीकेंद्रित योजनेची गरज आहे. महाराष्ट्र शासनाने तातडीने एका उच्चस्तरीय, आंतरविभागीय ‘महाराष्ट्र ऐतिहासिक दस्तऐवज मिशन’ची स्थापना करावी. या मिशनला धोरणात्मक निर्णय घेण्याचे आणि अंमलबजावणीचे पूर्ण अधिकार असावेत. या मिशनचे नेतृत्व मुख्यमंत्री कार्यालयाकडे असावेत, जेणेकरून मिशनला कार्यकारी अधिकार मिळतील आणि आंतरविभागीय समन्वयात अडथळे येणार नाहीत.
सरकारी भागधारक: राज्य पुराभिलेखागार, महसूल विभाग, विधी व न्याय विभाग आणि सामाजिक न्याय विभाग. हे सर्व विभाग या डेटाचे अंतिम वापरकर्ते असल्याने त्यांचा सहभाग महत्त्वाचा आहे.
तांत्रिक भागीदार: आयआयटी रुरकी आणि राज्यातील तांत्रिक शिक्षण संस्था. विषयतज्ज्ञ: महाराष्ट्रातील विद्यापीठांमधील इतिहासकार, भाषातज्ज्ञ आणि भारत इतिहास संशोधक मंडळासारख्या (BISM) संस्थांमधील संशोधकांचा एक गट. या मिशनचे प्राथमिक आणि मुख्य उद्दिष्ट हे असेल की, सध्या सुरू असलेल्या डिजिटायझेशन योजनेत वर नमूद केलेला ‘चौथा टप्पा’ (एआय कॉर्पस निर्मिती) समाविष्ट करून एक विशाल, राज्यव्यापी आणि प्रमाणित मोडी लिपी कॉर्पस तयार करण्याच्या प्रक्रियेवर देखरेख करणे. पथदर्शी प्रयोगापासून राज्यव्यापी विस्तारापर्यंत टप्प्याटप्प्याने, अनुभवावर आधारलेली अंमलबजावणी हा अधिक सुरक्षित आणि परिणामकारक मार्ग आहे.
सुरुवात पुण्यातूनच व्हावी. आधीच डिजिटाइज झालेले काही दस्तऐवज निवडून त्यावर प्रयोग करावा. येथे MoScNet बरोबरच शैक्षणिक, ओपन-सोर्स किंवा उद्याोगातील विविध एआय साधने वापरून चाचणी घ्यावी. त्यांची अचूकता, वेग आणि प्रति पान लागणारा खर्च मोजून पाहावा. कोणते मॉडेल स्थानिक दस्तऐवजांना अधिक चपखल बसते हे प्रत्यक्ष कामातून समजेल. मानवी तज्ज्ञांची एक टीम एआयने केलेल्या लिप्यंतराची पडताळणी करेल आणि चुका सुधारून मॉडेलला पुन्हा प्रशिक्षित (fine- tune) करेल.
पायलटमधील अनुभवाच्या आधारे पुढची पायरी म्हणजे राज्यातील सर्व जिल्हा अभिलेखागारांमध्ये ही पद्धत नेणे. इथेही एआय-मानव संयुक्त मॉडेल वापरावे. एआय प्राथमिक लिप्यंतर करेल, पण अंतिम खात्री प्रशिक्षित पडताळणी करणारे कर्मचारी करतील.
सामान्यांसाठी एक डिजिटल पोर्टल खुले असावे. आज ज्या पोर्टलवर फक्त दस्तऐवजांच्या प्रतिमा पाहायला मिळतात, त्याऐवजी प्रतिमांबरोबरच प्रमाणित देवनागरी मजकूर उपलब्ध करून दिल्यास ते संशोधकांपासून प्रशासकांपर्यंत सर्वांसाठी उपयुक्त ठरेल. त्यात दस्तऐवजांची खरी ओळख जपण्यासाठी डिजिटल सही, हॅशिंग आणि लॉगिंग यांसारखे तांत्रिक उपाय अनिवार्य करावेत.
प्रशासन, मानके आणि क्षमता बांधणी कायद्याची चौकट स्पष्ट हवी – मजकुराला शासन व न्यायालयीन प्रक्रियेत मान्यता द्यायची असेल, तर आधीच स्पष्ट मार्गदर्शक तत्त्वे हवीत. अन्यथा दस्तावेज एआयने वाचला तरी तो पुरावा म्हणून ग्राह्य धरायचा की नाही यावरच वाद निर्माण होतील.
मानकांची एकसंधता – राज्यात तयार होणाऱ्या कॉर्पसला एकसमान दर्जा देणं अत्यावश्यक आहे. कोणतंही अभिलेखागार, कोणतीही संस्था काम करत असली, तरी डेटा प्रमाणीकरण आणि नोंदी करण्याची पद्धत एकच असावी.
क्षमता उभारणी- आज राज्यात मोजकेच मोडीतज्ज्ञ आहेत. त्यांच्यावर सगळे ओझे टाकून चालणार नाही. त्याऐवजी, एआयने तयार केलेल्या मसुद्यांची पडताळणी करणारी एक मोठी प्रशिक्षित फळी तयार करता येईल. यासाठी प्रशिक्षण कार्यक्रम आखावेत.
संकटाच्या पलीकडे- मोडी लिपीचा प्रश्न हा केवळ आरक्षणाशी निगडित प्रशासकीय अडथळा नाही, तर महाराष्ट्र शासनाच्या तांत्रिक क्षमतेची खरी कसोटी आहे. डिजिटायझेशनवर कोट्यवधी खर्च करूनही जर ते दस्तऐवज मशीन-रीडेबल झाले नाहीत, तर ती गुंतवणूक उपयोगाची ठरणार नाही. त्यामुळे एआय आधारित उपायांकडे गांभीर्याने पाहणे ही काळाची गरज आहे. अशा गुंतवणुकीतून शासनाला तातडीचे प्रशासकीय संकट टाळता येईल, सुरू असलेल्या डिजिटायझेशन योजनेतील पोकळी भरून निघेल, आणि बंदिस्त ऐतिहासिक नोंदी समाजासाठी नव्या दारांनी खुल्या होतील. या नोंदी अर्थकारणापासून संस्कृती आणि शिक्षणापर्यंत विविध क्षेत्रांना नवीन रूप देतील. (लेखक ‘एआय’ प्रशिक्षक आहेत)
aniket.shevade48@gmail.com