भारतात इंटरनेटचे उपयोक्ते वाढत असले तरी आपल्या भाषांतील विकिपीडियाची पाने मात्र अजून वाढलेली नाहीत. जगातील सर्वाधिक वापराच्या १०० भाषांपकी २८ भाषा अबुगिडा लिप्या वापरतात. त्यातील २२ भाषा भारतीय आहेत असल्यामुळे या भाषांत टंकलेखन सोपे करण्यासाठी बरेच संशोधन आपल्यालाच करावे लागणार आहे.
२७ फेब्रुवारीची गोष्ट. मराठी दिनानिमित्त एका व्याख्यानासाठी मी मुंबईहून पुण्याला चाललो होतो. बसमध्ये माझ्या शेजारी एक चिमुरडी व तिची आई प्रवास करत होत्या. वार्षकि परीक्षा जवळ आल्यामुळे, आईचा आणि मुलीचा ‘तोंडी शुद्धलेखनाचा’ खेळ चालू होता. आई शब्द सांगत होती आणि मुलगी तो कसा लिहायचा याचे वर्णन करत होती. मुलगी खेळ जिंकत होती. ‘मुंबई’, ‘शिवनेरी’, ‘घाट’ असे पर्यावरणातले शब्द विचारून झाले. ‘महाराष्ट्र’, ‘कर्तव्य’ अशा अवघड शब्दांचेदेखील अचूक वर्णन मुलीने केले. मग आई म्हणाली ‘परंतु’. ‘तू’ ऱ्हस्व का दीर्घ यावर मुलगी क्षणभर अडखळली. मग मिश्कीलपणे हसत म्हणाली ‘पी ए आर ए एन टी यू’. आईने भुवया उंच केल्या, तशी चिमुरडी म्हणाली, ‘‘मग तू नाही का व्हॉट्सअ‍ॅपवर असेच टाइप करत?’’ यावर आई निरुत्तर झाली. व्याख्यानाची सुरुवात करायला मला एक छान गोष्ट सापडली.
भारतीय भाषांमध्ये टंकलेखन (टायिपग) या विषयामध्ये माझे विद्यार्थी व सहकाऱ्यांसोबत मी गेली १५ वष्रे संशोधन करत आहे. हे सांगितल्यावर यात इतके संशोधन करण्यासारखे काही असेल यावर अनेक लोकांचा विश्वास बसत नाही. सर्वसामान्यांनाच नव्हे, तर विशेषज्ञांनादेखील याबाबत अनेक गरसमज असतात. आजच्या आणि येत्या लेखात या विषयाकडे पाहू.
जगातल्या प्रमुख लिप्यांचे प्रकार चार; अल्फाबेट, लोगोग्राफिक, अब्जाड आणि अबुगिडा. रोमन, ग्रीक, रशियन व अन्य युरोपियन लिप्यांना अल्फाबेट म्हणतात. यात प्रत्येक अक्षराचे स्वतंत्र अस्तित्व असते, ते स्वर असो वा व्यंजन. कांजी (जपानी), चिनी वगरे पूर्वेकडील लोगोग्राफिक लिप्या चित्रात्मक असतात. यांत प्रत्येक शब्दासाठी एक अशी हजारो अक्षरे असतात. अरबीसारख्या पश्चिम आशियाई लिप्या या अब्जाड म्हणवतात. या लिप्यांत प्रामुख्याने व्यंजनानेच लिहिले जाते. लिखाणात स्वरांचा वापर कमी असतो. देवनागरीसह भारतीय लिप्या आणि जवळच्या तिबेटी, बरमी, थाई, लाओ या अबुगिडाची उदाहरणे आहेत. या लिप्यांच्या व्यंजनांत एक स्वर अंगभूत असतो. व्यंजनांना इतर स्वर लावण्यासाठी काना, मात्रा, वेलांटय़ांसारखी चिन्हे वापरली जातात. उदाहरणार्थ देवनागरी ‘क’मध्ये अ-कार अंगभूत असतो आणि ‘का, कि, कु’मध्ये काना, वेलांटय़ा किंवा उकार लावले जातात.
टंकलेखन यंत्राचा आविष्कार सोळाव्या शतकात इटलीत झाला. त्याचा खरा विकास मात्र एकोणिसाव्या शतकात झाला. या काळात टंकलेखनाचा वेग वाढवण्यासाठी व चुका कमी करण्यासाठी अनेक प्रयोग झाले. १८७३ साली रेिमग्टन कंपनीने एक टंकलेखन यंत्र काढले. त्या यंत्रात QWERTY मांडणी होती. इंग्रजीत एकानंतर एक येणाऱ्या जोडगोळ्या अक्षरांचे खिळे या मांडणीत एकमेकांपासून दूर ठेवले होते. त्यामुळे भराभर टंकन करताना खिळे एकमेकांत कमी अडकू लागले. शिवाय उपयोक्त्यांच्या दोन्ही हातांचा समसमान वापर होऊ लागला. परिणामी उपयोक्त्यांचा टंकलेखनाचा वेग वाढला आणि चुका कमी झाल्या, म्हणून हे यंत्र लोकप्रिय झाले. ही लोकप्रियता पाहून अन्य कंपन्यांदेखील याच रचनेची यंत्रे बनवू लागल्या. हळूहळू QWERTY मांडणी एक मानक झाली.
यांत्रिक खिळ्यांची टंकलेखन यंत्रे कालबाह्य़ होऊन अनेक वष्रे लोटली, तरी आज संगणकांपासून ते स्मार्टफोनपर्यंत सगळीकडे आपल्याला QWERTY च दिसते. खरे तर मधल्या काळात संशोधकांनी अनेक नवीन मांडण्या बनवल्या. त्यातील काही QWERTY पेक्षा वेगवान आणि अचूक ठरल्या, तरीदेखील QWERTY च सर्वत्र वापरली जाते.
गेल्या शतकात युरोपियन तंत्रज्ञाचा आणि विशेषकरून टंकलेखन, संगणक आणि माहिती तंत्रज्ञानाचा जगभरात प्रसार झाला. तो इतका, की आपल्या भाषांसाठी विशेष तंत्रज्ञान बनवणे अगदी थोडय़ा देशांनाच जमले. बऱ्याच देशांनी हे तंत्रज्ञान जसेच्या तसे दत्तक घेतले. भारताच्या बाबतीतही हेच झाले. १९३० साली अत्रे यांनी रेिमग्टन कंपनीसाठी ‘नागरी लेखन यंत्र’ नावाचे देवनागरी टंकलेखन यंत्र अभिकल्पित केले. ते भारतीय भाषांसाठी बनवलेले पहिले यंत्र होते. १९६४ साली भारत सरकारच्या भाषा विभागाने देवनागरीसाठी खास मांडणी मंजूर केली. त्याआधारे १९६८ मध्ये वाकणकर यांनी गोदरेजसाठी आणखीन एक यंत्र अभिकल्पित केले. या दोन्ही मांडण्या दहएफळच्याच साच्यात थोडेफार बदल करून बसवलेल्या होत्या.
पुढे १९८० ते २००० या काळात भारतामध्ये संगणकाचा वापर वाढला. संगणकावर भारतीय भाषांसाठी अनेक टंक (फॉण्ट) आणि त्याबरोबर अनेक कीबोर्ड मांडण्या बाजारात आल्या. या सर्व मांडण्या अर्थातच QWERTY चा पाया धरून बनवण्यात आल्या होत्या. मूळ इंग्रजी कीबोर्डावर देवनागरी अक्षरांच्या पट्टय़ा चिटकवलेले असले अनेक कीबोर्ड आपण पाहिले असतील.
एकोणिसाव्या शतकात युरोपमध्ये विकसित झालेली ही QWERTY मांडणी तिथल्या अल्फाबेट लिप्यांसाठी साजेशी होती. मात्र अन्य लिप्यांच्या रचना वेगळ्या आहेत. त्यांच्यासाठी ती साजेशी असेलच असे नाही. अक्षरांच्या संख्येचेच बघा. ही मांडणी २६ इंग्रजी अक्षरांचे टंकन करण्यासाठी तयार केली आहे. देवनागरीत किमान ५३ कळांची गरज आहे. थोडय़ाफार फरकाने इतर भारतीय लिप्यांतदेखील इतक्याच कळांची गरज आहे. QWERTY च्या एकेका कळीवर दोन ते चार अक्षरे ‘कोंबून’ या मांडण्या बनवण्यात आल्या आहेत. त्यांच्या रचनेत उपयोक्त्याचा पुरेसा विचार झाला नाही व वापरयोग्यतेवर पुरेसे संशोधन झाले नाही. या मांडण्या शिकायला अवघड आहेत व उपयोक्त्यांच्या टंकलेखनाचा वेग कमी व चुका जास्त होत आहे.
परिणामत: भारतात संगणकाची लोकप्रियता वाढत असतानादेखील भारतीय भाषांत टंकलेखन मात्र म्हणावे तेवढे लोकप्रिय झाले नाही. भारतीय संगणक उपयोक्ते इंग्रजीत सर्रास टंकलेखन करतात. पण आपल्याच मातृभाषेत चार ओळी टाइप करण्यासाठी त्यांना व्यावसायिक डीटीपी ऑपरेटरकडे धाव घ्यावी लागते. याची अनेक उदाहरणे देता येतील. वरील चित्रात दाखवलेल्याप्रमाणे अध्र्या (इंग्रजीत) टाइप केलेल्या आणि अध्र्या (भारतीय भाषेत) हाताने लिहिलेल्या पाटय़ा आपल्या पाहण्यात आल्या असतीलच.
याबाबतीत विकिपीडियाचे उदाहरण अगदी बोलके आहे. विकिपीडिया हा उपयोक्त्यांनी श्रमदान करून बनवलेला ज्ञानकोश आहे. २०१४ साली आम्ही अनुमानित इंटरनेट उपयोक्ते आणि विकिपीडियातील पाने यांची भाषावार तुलना केली. त्या वेळी जगात २८.५ कोटी इंग्रजी बोलणारे इंटरनेट उपयोक्ते होते व इंग्रजी विकिपीडियात ४३.९ लाख पाने होती. म्हणजे एक इंग्रजी विकिपीडियाचे पान बनवायला ६५ इंटरनेट उपयोक्ते लागत. तसेच एक जर्मन पान बनवायला ४४, तर एका डच पानासाठी ११ उपयोक्तेपुरत. विकसनशील देशदेखील फार मागे नव्हते. व्हिएतनामी विकिपीडियाचे एक पान बनवायला २९ उपयोक्ते लागत. फिलिपिन्समध्ये वारी वारी नावाची एक भाषा आहे. ती बोलणारे अंदाजे साडेआठ लाख इंटरनेट उपयोक्ते होते. तरी त्या भाषेत ९.५ लाख विकिपीडियाची पाने होती, म्हणजे माणशी एकापेक्षा जास्त.
याउलट स्थिती भारतीय भाषांची होती. २०१४ मध्ये अंदाजे ८३ लाख मराठी इंटरनेट उपयोक्ते होते, तरी मराठी विकिपीडियात ४० हजारपेक्षा कमी पाने होती (म्हणजे एका पानासाठी २१० उपयोक्ते लागत). िहदीच्या एका पानासाठी ३०८ उपयोक्ते लागत (१.१ लाख पाने, ३.४ कोटी उपयोक्ते). पंजाबीला सगळ्यात जास्त (१,५६५) तर तेलुगूला सगळ्यात कमी (१६१) उपयोक्ते लागत. ध्यानात ठेवा, हे अनुमानित इंटरनेट उपयोक्ते होते, ती भाषा बोलणारी लोकसंख्या नव्हे. साक्षरतेची, गरिबीची किंवा उपलब्धतेची सबब इथे लागू होत नाही. गेल्या दोन वर्षांत भारतातले इंटरनेट उपयोक्ते झपाटय़ाने वाढले आहेत, पण भारतीय भाषांतील विकिपीडियाची पाने मात्र अजून वाढलेली नाहीत. यावरून असे वाटते की भारतीय भाषांमध्ये टंकलेखनाचे कोडे अजूनही सुटलेले नाही. जगातील सर्वाधिक वापराच्या १०० भाषांपकी २८ भाषा अबुगिडा लिप्या वापरतात. १४० कोटी (जगातील २१ टक्के लोकसंख्या) या भाषा बोलतात. त्यातील २२ भाषा भारतीय आहेत आणि १२० कोटी लोक त्या बोलतात. त्यामुळे या भाषांत टंकलेखन सोपे करण्यासाठी खूप संशोधन आपल्यालाच करावे लागणार आहे.
भारतीय भाषांच्या टंकलेखनात संशोधन करण्याची गरज का आहे हे या लेखात आपण पाहिले. त्यावर आमच्या चमूने संशोधन कसे केले, कोणते प्रयोग केले, किती प्रयोग फसले, किती तगले, ते आपण पुढच्या लेखात पाहू.

 

Loksatta editorial Today marks the 40th anniversary of India successful Siachen Digvijaya campaign Operation Meghdoot
अग्रलेख: सियाचीनचा सांगावा..
All information about OpenAI GPT 4 Vision in marathi
प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया; GPT- 4 Vision नक्की काय आहे?
Loksatta kutuhal Application of computer vision
कुतूहल: संगणकीय दृष्टीचे उपयोजन
Archaeological Survey of India
विश्लेषण: भारतीय संस्कृती संबंधित १८ स्मारके चक्क गायब! भारतीय पुरातत्त्व खातं याला किती जबाबदार?

अनिरुद्ध जोशी, गिरीश दळवी
लेखकद्वय आयआयटी मुंबई येथील ‘औद्योगिक अभिकल्प केंद्रा’त (आयडीसी- इंडस्ट्रियल डिझाइन सेंटर) प्राध्यापक म्हणून कार्यरत आहेत.
लेखकाचा ई-मेल anirudha@iitb.ac.in