21 November 2018

News Flash

भारतीय भाषा टंकलेखनातील आव्हाने

भारतात इंटरनेटचे उपयोक्ते वाढत असले तरी आपल्या भाषांतील विकिपीडियाची पाने मात्र अजून वाढलेली नाहीत.

भारतात इंटरनेटचे उपयोक्ते वाढत असले तरी आपल्या भाषांतील विकिपीडियाची पाने मात्र अजून वाढलेली नाहीत. जगातील सर्वाधिक वापराच्या १०० भाषांपकी २८ भाषा अबुगिडा लिप्या वापरतात. त्यातील २२ भाषा भारतीय आहेत असल्यामुळे या भाषांत टंकलेखन सोपे करण्यासाठी बरेच संशोधन आपल्यालाच करावे लागणार आहे.
२७ फेब्रुवारीची गोष्ट. मराठी दिनानिमित्त एका व्याख्यानासाठी मी मुंबईहून पुण्याला चाललो होतो. बसमध्ये माझ्या शेजारी एक चिमुरडी व तिची आई प्रवास करत होत्या. वार्षकि परीक्षा जवळ आल्यामुळे, आईचा आणि मुलीचा ‘तोंडी शुद्धलेखनाचा’ खेळ चालू होता. आई शब्द सांगत होती आणि मुलगी तो कसा लिहायचा याचे वर्णन करत होती. मुलगी खेळ जिंकत होती. ‘मुंबई’, ‘शिवनेरी’, ‘घाट’ असे पर्यावरणातले शब्द विचारून झाले. ‘महाराष्ट्र’, ‘कर्तव्य’ अशा अवघड शब्दांचेदेखील अचूक वर्णन मुलीने केले. मग आई म्हणाली ‘परंतु’. ‘तू’ ऱ्हस्व का दीर्घ यावर मुलगी क्षणभर अडखळली. मग मिश्कीलपणे हसत म्हणाली ‘पी ए आर ए एन टी यू’. आईने भुवया उंच केल्या, तशी चिमुरडी म्हणाली, ‘‘मग तू नाही का व्हॉट्सअ‍ॅपवर असेच टाइप करत?’’ यावर आई निरुत्तर झाली. व्याख्यानाची सुरुवात करायला मला एक छान गोष्ट सापडली.
भारतीय भाषांमध्ये टंकलेखन (टायिपग) या विषयामध्ये माझे विद्यार्थी व सहकाऱ्यांसोबत मी गेली १५ वष्रे संशोधन करत आहे. हे सांगितल्यावर यात इतके संशोधन करण्यासारखे काही असेल यावर अनेक लोकांचा विश्वास बसत नाही. सर्वसामान्यांनाच नव्हे, तर विशेषज्ञांनादेखील याबाबत अनेक गरसमज असतात. आजच्या आणि येत्या लेखात या विषयाकडे पाहू.
जगातल्या प्रमुख लिप्यांचे प्रकार चार; अल्फाबेट, लोगोग्राफिक, अब्जाड आणि अबुगिडा. रोमन, ग्रीक, रशियन व अन्य युरोपियन लिप्यांना अल्फाबेट म्हणतात. यात प्रत्येक अक्षराचे स्वतंत्र अस्तित्व असते, ते स्वर असो वा व्यंजन. कांजी (जपानी), चिनी वगरे पूर्वेकडील लोगोग्राफिक लिप्या चित्रात्मक असतात. यांत प्रत्येक शब्दासाठी एक अशी हजारो अक्षरे असतात. अरबीसारख्या पश्चिम आशियाई लिप्या या अब्जाड म्हणवतात. या लिप्यांत प्रामुख्याने व्यंजनानेच लिहिले जाते. लिखाणात स्वरांचा वापर कमी असतो. देवनागरीसह भारतीय लिप्या आणि जवळच्या तिबेटी, बरमी, थाई, लाओ या अबुगिडाची उदाहरणे आहेत. या लिप्यांच्या व्यंजनांत एक स्वर अंगभूत असतो. व्यंजनांना इतर स्वर लावण्यासाठी काना, मात्रा, वेलांटय़ांसारखी चिन्हे वापरली जातात. उदाहरणार्थ देवनागरी ‘क’मध्ये अ-कार अंगभूत असतो आणि ‘का, कि, कु’मध्ये काना, वेलांटय़ा किंवा उकार लावले जातात.
टंकलेखन यंत्राचा आविष्कार सोळाव्या शतकात इटलीत झाला. त्याचा खरा विकास मात्र एकोणिसाव्या शतकात झाला. या काळात टंकलेखनाचा वेग वाढवण्यासाठी व चुका कमी करण्यासाठी अनेक प्रयोग झाले. १८७३ साली रेिमग्टन कंपनीने एक टंकलेखन यंत्र काढले. त्या यंत्रात QWERTY मांडणी होती. इंग्रजीत एकानंतर एक येणाऱ्या जोडगोळ्या अक्षरांचे खिळे या मांडणीत एकमेकांपासून दूर ठेवले होते. त्यामुळे भराभर टंकन करताना खिळे एकमेकांत कमी अडकू लागले. शिवाय उपयोक्त्यांच्या दोन्ही हातांचा समसमान वापर होऊ लागला. परिणामी उपयोक्त्यांचा टंकलेखनाचा वेग वाढला आणि चुका कमी झाल्या, म्हणून हे यंत्र लोकप्रिय झाले. ही लोकप्रियता पाहून अन्य कंपन्यांदेखील याच रचनेची यंत्रे बनवू लागल्या. हळूहळू QWERTY मांडणी एक मानक झाली.
यांत्रिक खिळ्यांची टंकलेखन यंत्रे कालबाह्य़ होऊन अनेक वष्रे लोटली, तरी आज संगणकांपासून ते स्मार्टफोनपर्यंत सगळीकडे आपल्याला QWERTY च दिसते. खरे तर मधल्या काळात संशोधकांनी अनेक नवीन मांडण्या बनवल्या. त्यातील काही QWERTY पेक्षा वेगवान आणि अचूक ठरल्या, तरीदेखील QWERTY च सर्वत्र वापरली जाते.
गेल्या शतकात युरोपियन तंत्रज्ञाचा आणि विशेषकरून टंकलेखन, संगणक आणि माहिती तंत्रज्ञानाचा जगभरात प्रसार झाला. तो इतका, की आपल्या भाषांसाठी विशेष तंत्रज्ञान बनवणे अगदी थोडय़ा देशांनाच जमले. बऱ्याच देशांनी हे तंत्रज्ञान जसेच्या तसे दत्तक घेतले. भारताच्या बाबतीतही हेच झाले. १९३० साली अत्रे यांनी रेिमग्टन कंपनीसाठी ‘नागरी लेखन यंत्र’ नावाचे देवनागरी टंकलेखन यंत्र अभिकल्पित केले. ते भारतीय भाषांसाठी बनवलेले पहिले यंत्र होते. १९६४ साली भारत सरकारच्या भाषा विभागाने देवनागरीसाठी खास मांडणी मंजूर केली. त्याआधारे १९६८ मध्ये वाकणकर यांनी गोदरेजसाठी आणखीन एक यंत्र अभिकल्पित केले. या दोन्ही मांडण्या दहएफळच्याच साच्यात थोडेफार बदल करून बसवलेल्या होत्या.
पुढे १९८० ते २००० या काळात भारतामध्ये संगणकाचा वापर वाढला. संगणकावर भारतीय भाषांसाठी अनेक टंक (फॉण्ट) आणि त्याबरोबर अनेक कीबोर्ड मांडण्या बाजारात आल्या. या सर्व मांडण्या अर्थातच QWERTY चा पाया धरून बनवण्यात आल्या होत्या. मूळ इंग्रजी कीबोर्डावर देवनागरी अक्षरांच्या पट्टय़ा चिटकवलेले असले अनेक कीबोर्ड आपण पाहिले असतील.
एकोणिसाव्या शतकात युरोपमध्ये विकसित झालेली ही QWERTY मांडणी तिथल्या अल्फाबेट लिप्यांसाठी साजेशी होती. मात्र अन्य लिप्यांच्या रचना वेगळ्या आहेत. त्यांच्यासाठी ती साजेशी असेलच असे नाही. अक्षरांच्या संख्येचेच बघा. ही मांडणी २६ इंग्रजी अक्षरांचे टंकन करण्यासाठी तयार केली आहे. देवनागरीत किमान ५३ कळांची गरज आहे. थोडय़ाफार फरकाने इतर भारतीय लिप्यांतदेखील इतक्याच कळांची गरज आहे. QWERTY च्या एकेका कळीवर दोन ते चार अक्षरे ‘कोंबून’ या मांडण्या बनवण्यात आल्या आहेत. त्यांच्या रचनेत उपयोक्त्याचा पुरेसा विचार झाला नाही व वापरयोग्यतेवर पुरेसे संशोधन झाले नाही. या मांडण्या शिकायला अवघड आहेत व उपयोक्त्यांच्या टंकलेखनाचा वेग कमी व चुका जास्त होत आहे.
परिणामत: भारतात संगणकाची लोकप्रियता वाढत असतानादेखील भारतीय भाषांत टंकलेखन मात्र म्हणावे तेवढे लोकप्रिय झाले नाही. भारतीय संगणक उपयोक्ते इंग्रजीत सर्रास टंकलेखन करतात. पण आपल्याच मातृभाषेत चार ओळी टाइप करण्यासाठी त्यांना व्यावसायिक डीटीपी ऑपरेटरकडे धाव घ्यावी लागते. याची अनेक उदाहरणे देता येतील. वरील चित्रात दाखवलेल्याप्रमाणे अध्र्या (इंग्रजीत) टाइप केलेल्या आणि अध्र्या (भारतीय भाषेत) हाताने लिहिलेल्या पाटय़ा आपल्या पाहण्यात आल्या असतीलच.
याबाबतीत विकिपीडियाचे उदाहरण अगदी बोलके आहे. विकिपीडिया हा उपयोक्त्यांनी श्रमदान करून बनवलेला ज्ञानकोश आहे. २०१४ साली आम्ही अनुमानित इंटरनेट उपयोक्ते आणि विकिपीडियातील पाने यांची भाषावार तुलना केली. त्या वेळी जगात २८.५ कोटी इंग्रजी बोलणारे इंटरनेट उपयोक्ते होते व इंग्रजी विकिपीडियात ४३.९ लाख पाने होती. म्हणजे एक इंग्रजी विकिपीडियाचे पान बनवायला ६५ इंटरनेट उपयोक्ते लागत. तसेच एक जर्मन पान बनवायला ४४, तर एका डच पानासाठी ११ उपयोक्तेपुरत. विकसनशील देशदेखील फार मागे नव्हते. व्हिएतनामी विकिपीडियाचे एक पान बनवायला २९ उपयोक्ते लागत. फिलिपिन्समध्ये वारी वारी नावाची एक भाषा आहे. ती बोलणारे अंदाजे साडेआठ लाख इंटरनेट उपयोक्ते होते. तरी त्या भाषेत ९.५ लाख विकिपीडियाची पाने होती, म्हणजे माणशी एकापेक्षा जास्त.
याउलट स्थिती भारतीय भाषांची होती. २०१४ मध्ये अंदाजे ८३ लाख मराठी इंटरनेट उपयोक्ते होते, तरी मराठी विकिपीडियात ४० हजारपेक्षा कमी पाने होती (म्हणजे एका पानासाठी २१० उपयोक्ते लागत). िहदीच्या एका पानासाठी ३०८ उपयोक्ते लागत (१.१ लाख पाने, ३.४ कोटी उपयोक्ते). पंजाबीला सगळ्यात जास्त (१,५६५) तर तेलुगूला सगळ्यात कमी (१६१) उपयोक्ते लागत. ध्यानात ठेवा, हे अनुमानित इंटरनेट उपयोक्ते होते, ती भाषा बोलणारी लोकसंख्या नव्हे. साक्षरतेची, गरिबीची किंवा उपलब्धतेची सबब इथे लागू होत नाही. गेल्या दोन वर्षांत भारतातले इंटरनेट उपयोक्ते झपाटय़ाने वाढले आहेत, पण भारतीय भाषांतील विकिपीडियाची पाने मात्र अजून वाढलेली नाहीत. यावरून असे वाटते की भारतीय भाषांमध्ये टंकलेखनाचे कोडे अजूनही सुटलेले नाही. जगातील सर्वाधिक वापराच्या १०० भाषांपकी २८ भाषा अबुगिडा लिप्या वापरतात. १४० कोटी (जगातील २१ टक्के लोकसंख्या) या भाषा बोलतात. त्यातील २२ भाषा भारतीय आहेत आणि १२० कोटी लोक त्या बोलतात. त्यामुळे या भाषांत टंकलेखन सोपे करण्यासाठी खूप संशोधन आपल्यालाच करावे लागणार आहे.
भारतीय भाषांच्या टंकलेखनात संशोधन करण्याची गरज का आहे हे या लेखात आपण पाहिले. त्यावर आमच्या चमूने संशोधन कसे केले, कोणते प्रयोग केले, किती प्रयोग फसले, किती तगले, ते आपण पुढच्या लेखात पाहू.

 

अनिरुद्ध जोशी, गिरीश दळवी
लेखकद्वय आयआयटी मुंबई येथील ‘औद्योगिक अभिकल्प केंद्रा’त (आयडीसी- इंडस्ट्रियल डिझाइन सेंटर) प्राध्यापक म्हणून कार्यरत आहेत.
लेखकाचा ई-मेल anirudha@iitb.ac.in

First Published on May 21, 2016 2:59 am

Web Title: typing challenges in indian language