संहिता जोशी

संख्याशास्त्राचा विदाविज्ञानातला थेट वापर म्हणजे ‘ऑटोकरेक्ट’, म्हणून आज त्याची चर्चा.. ऑटोकरेक्टमुळे एका अक्षरापासून सुरू होणारे पर्याय मिळतात, त्यामागे ‘संख्याशास्त्रीय माहिती’चा वाटा असतो. या माहितीला भाषा अवगत नसते, त्यामुळे ‘वैशिष्टय़पूर्ण वाक्य’ असं लिहिताना काहीतरी भलतंच-‘वैचित्र्यपूर्ण’सुद्धा- होऊ शकतं!

विदाविज्ञान आणि संख्याशास्त्र (स्टॅटिस्टिक्स) हे दोन विषय पूर्णपणे स्वतंत्र नाहीत. संख्याशास्त्र हा मूलभूत विज्ञानाचा भाग आहे. म्हणजे गुगल, क्रेडिट कार्ड कंपन्या, वैद्यकशास्त्र – संशोधक अशा कोणीही आपली विदा (डेटा) जमा केली नाही तरीही संख्याशास्त्र आणि त्यातल्या मूलभूत संकल्पना बदलणार नाहीत. विदाविज्ञानाचं तसं नाही; विदाविज्ञान कोणता तरी प्रश्न सोडवतं, भाकितं करतं. निवडणुका जवळ आल्या की कोणता पक्ष जिंकणार-हरणार याचे कल जाहीर होतात. त्यात किती-कशा लोकांना, कोणते-कसे प्रश्न विचारायचे, हे ठरवण्याचं काम म्हणजे शुद्ध संख्याशास्त्र. त्या उत्तरांमधून भाकीत करणं हे काम एके काळी संख्याशास्त्राचं समजलं जात असे. हल्ली त्याला विदाविज्ञानही म्हणतात. विदाविज्ञानात संख्याशास्त्र, संगणकशास्त्र (कंप्युटर सायन्स), मशीन लìनग, असे विविध प्रकार येतात. वेगवेगळ्या उदाहरणांच्या निमित्तानं वेगवेगळ्या लेखांत आपण त्याची चर्चा करू.

शुद्ध संख्याशास्त्राचा तंत्रज्ञानात वापर करण्याचं उदाहरण बघायचं तर ऑटोकरेक्ट नावाचं ‘भूत’ आठवतं. फोनवर लिहिताना काही अक्षरं टंकल्यानंतर फोन शब्द पूर्ण करण्याचे पर्याय सुचवतो. अनेकदा त्यातून विचित्र, अनपेक्षित विनोदही होतात. म्हणायचं असतं एक आणि फोन भलतंच काही सुचवतो, कधी शब्द ‘सुधारतो’. चार-पाच अक्षरांपेक्षा मोठा शब्द असेल तर अनेक अ‍ॅप्समध्ये पुढची अक्षरं सुचवली जातात; अक्षरंच नव्हे, शब्दांच्या सूचना येतात. इंग्लिशमध्ये ईमेल लिहिताना वाक्य पूर्ण करण्याची सुविधा हल्ली गुगल द्यायला लागलं आहे. शब्द पूर्ण करण्याचं एखादं उदाहरण बघू. सोबतचं चित्र पाहा. ‘माझ’ असा शब्द मराठी शब्द नाही. पण त्यातून ‘माझं’, ‘माझी’, ‘माझा’, ‘माझ्या’, ‘माझ्याकडे’ असे बरेच शब्द तयार होऊ शकतात. दुसरी शक्यता अशीही असते की ‘मा’ याच्यापुढचं अक्षर चुकून आलंय; तो शब्द ‘मान’ असा असेल.

एखादी भाषा आपल्याला चांगली बोलता-वाचता येते तेव्हा असं होतं की वाक्याचा थोडा भाग ऐकला तरी पुढे काय शब्द येतील, वाक्य कसं संपेल हे साधारण लक्षात येतं. कधी सामाजिक, राजकीय संदर्भामुळे हे लक्षात येतं. याचं साधं उदाहरण लक्षात आलं ते म्हणजे मला पानभर हिंदी वाचायला मराठीपेक्षा बराच जास्त वेळ लागतो. खरं तर लिपी देवनागरीच, पण हिंदी वाचण्याची सवय नाही. त्यामुळे पुढचा शब्द काय येणार हे लक्षात येत नाही. सगळे शब्द फार लक्ष देऊन वाचावे लागतात. अगदी ‘कमल नमन कर’ अशासारखं सोपं वाक्य वाचण्यासाठीही जास्त वेळ लागतो.

दुसरा भाग असतो तो विषयाचा. आपल्या सवयीच्या विषयांमधलं लेखन वाचणं सोपं असतं. समजा, राजकीय बातमी आहे, त्यात ‘पंतप्रधान’ असा शब्द आला. तर पुढे नरेंद्र मोदी किंवा मनमोहन सिंग, असे मोजकेच शब्द येतात हे आपल्याला माहीत असतं. बातमी आंतरराष्ट्रीय राजकारणाची असेल आणि त्या विषयाबद्दल आपल्याला माहिती नसेल तर बातमीत ‘पंतप्रधान तेरेसा मे’ असे शब्द लक्षपूर्वक वाचावे लागतील.

ऑटोकरेक्ट किंवा शब्दांच्या सूचना करणारी प्रणाली अशाच प्रकारे शब्द आणि भाषा शिकते : कोणत्या अक्षरापुढे कोणती अक्षरं येतात. मराठीत ‘स’ आणि ‘ट’ हे उच्चार आहेत; मराठीत जोडाक्षरं आहेत;  सट, सटवाई असे शब्द आहेत, पण मराठीत ‘स्ट’ असं जोडाक्षर नाही. मराठीत आपण स्टेशन, स्टँड असे शब्द सर्रास वापरतो, पण हे शब्द इंग्लिशमधून आलेले आहेत, जुजबी इंग्लिश येत असेल तरी ते समजतं.

‘स’ या अक्षराचा पाय मोडला, तर पुढे कोणती अक्षरं येण्याची किती शक्यता आहे; हे संख्याशास्त्र. माझ्या फोननं मला पर्याय दाखवले ते या चित्रात पाहा. स्वत, स्पष्ट, स्थान, स्वरूप, स्वच्छ, स्त्री असे शब्द आले. याचा अर्थ स्टेशन, स्टँड असे शब्द एक तर मी फार वापरत नसेन; किंवा या प्रणालीला ते शब्द मराठी असल्याचं माहीत नाही.

त्यात तिसरी शक्यता अशी आहे, लिहायला सुरुवात केली म्हणजे हा शब्द वाक्यातला पहिलाच होता. प्रत्येक भाषेची आपापली वैशिष्टय़ं असतात. त्यानुसार काही शब्द मराठीत वाक्याच्या सुरुवातीला येत नाहीत. क्रियापदांनी सुरुवात होणारी वाक्यं मराठीत सहसा नसतात. ‘आहे’ या शब्दानं सुरुवात होणारं वाक्य मी आजच पहिल्यांदा लिहिलं, आत्ता वाचलंत हेच ते वाक्य.

दुसरं चित्र पाहा; त्यात वाक्याची सुरुवात ‘आह.’ अशी करण्याचा प्रयत्न केला. मराठीत आहार, आहेर असे शब्द आहेत. या सॉफ्टवेअर प्रणालीला, कोणते शब्द वाक्याच्या सुरुवातीला येतात, येत नाहीत, याची संख्याशास्त्रीय माहिती दिसत नाही.

संख्याशास्त्रीय माहिती म्हणजे काय? तर प्रमाण मराठीतली सगळी वाक्यं घेतली – हे व्यावहारिकदृष्टय़ा शक्य नाही – म्हणून ‘लोकसत्ता’मध्ये छापून आलेली सगळी वाक्यं घेतली, तर त्यांत काही वाक्यं सापडतील ज्यांची सुरुवात ‘आह’ अशा अक्षरांनी होते. या निवडून घेतलेल्या किती वाक्यांची सुरुवात आहेर किंवा आहार या शब्दांनी होते; त्यांचं प्रमाण बरंच जास्त असेल. मी ते मोजलेलं नाही, पण मराठी भाषकांना याची कल्पना करणं कठीण नाही. (हेच ते भाषा अवगत असणं.) ही संख्याशास्त्रीय माहिती.

समजा असा प्रकल्प कोणी सुरू केला; प्रमाण मराठीत लिहिल्या जाणाऱ्या वाक्यांच्या सुरुवातीची दोन अक्षरं कोणती, ते शोधायचं. तर आत्तापर्यंत ही सगळी फक्त वाक्यं होती, ती या प्रकल्पापुरती विदा ठरेल. प्रमाण मराठीत लिहिली जाणारी सगळी वाक्यं म्हणजे संपूर्ण विदा. फक्त ‘लोकसत्ता’मधली वाक्यं घेतली तर तो असेल नमुनासंच किंवा वानोळा. यात गृहीतक असं की प्रमाण मराठी बोलीत ज्या विषयांबद्दल बोललं जातं, त्या सगळ्या विषयांबद्दल ‘लोकसत्ता’मध्ये लिहिलं जातं.

हे गृहीतक धरण्याचं कारण असं की वेगवेगळ्या विषयांसाठी वापरली जाणारी भाषा काही किंचित बदलते. या सदराचं नाव आहे ‘विदा- भान’. या लेखांमध्ये ‘विदा’ हा शब्द बरेचदा येतो; पण त्याच पानावर ‘एकात्मयोग’ हे सदरसुद्धा आहे. दोन्हींची भाषा मराठीच असली तरीही दोन्हींमध्ये वापरले जाणारे शब्द बरेच निराळे आहेत.

विदाविज्ञानात संख्याशास्त्राचा उपयोग केला जातो. त्यात एक उपयोग असाही असतो, लेख वाचून त्यांचे विषय काय हे ठरवणं. विदा, संख्याशास्त्र, असे शब्द आले की त्या लेखाचा विषय विदाविज्ञान, असं ठरवता येईल. तसंच सद्गुरू, भवदुख असे शब्द आले तर त्या लेखाचा विषय ‘एकात्मयोग’ असं ठरवता येईल. किंवा शतक, विश्रांती, अंतिम, यजमान असे शब्द आले ती बातमी खेळांबद्दल असेल. कोणत्याही लेख, बातमीतले महत्त्वाचे शब्द उचलले तर विषय कोणता याचं भाकीत करता येतं.

महत्त्वाचे शब्द कसे ठरवायचे? मराठीत ‘आहे’, ‘म्हणून’, ‘आणि’ असे शब्द कोणत्याही विषयात येऊ शकतात. जे शब्द सगळीकडे येतात, त्यांतून माहिती मिळत नाही. ही माहिती म्हणजे संगणकशास्त्रात, गणितात जिला माहिती म्हटलं जातं ती. (मराठी व्यक्तीला ‘आहे’ या क्रियापदातून माहिती मिळते; ‘होतं’ या क्रियापदापेक्षा ती निराळी असते.) ईमेल लिहिताना गुगल वाक्य पूर्ण करण्याचा पर्याय सुचवतं, ते अशा प्रकारची विदा गोळा करूनच.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com