03 April 2020

News Flash

.. व वैशिष्टय़पूर्ण वाक्य

शुद्ध संख्याशास्त्राचा तंत्रज्ञानात वापर करण्याचं उदाहरण बघायचं तर ऑटोकरेक्ट नावाचं ‘भूत’ आठवतं.

(संग्रहित छायाचित्र)

संहिता जोशी

संख्याशास्त्राचा विदाविज्ञानातला थेट वापर म्हणजे ‘ऑटोकरेक्ट’, म्हणून आज त्याची चर्चा.. ऑटोकरेक्टमुळे एका अक्षरापासून सुरू होणारे पर्याय मिळतात, त्यामागे ‘संख्याशास्त्रीय माहिती’चा वाटा असतो. या माहितीला भाषा अवगत नसते, त्यामुळे ‘वैशिष्टय़पूर्ण वाक्य’ असं लिहिताना काहीतरी भलतंच-‘वैचित्र्यपूर्ण’सुद्धा- होऊ शकतं!

विदाविज्ञान आणि संख्याशास्त्र (स्टॅटिस्टिक्स) हे दोन विषय पूर्णपणे स्वतंत्र नाहीत. संख्याशास्त्र हा मूलभूत विज्ञानाचा भाग आहे. म्हणजे गुगल, क्रेडिट कार्ड कंपन्या, वैद्यकशास्त्र – संशोधक अशा कोणीही आपली विदा (डेटा) जमा केली नाही तरीही संख्याशास्त्र आणि त्यातल्या मूलभूत संकल्पना बदलणार नाहीत. विदाविज्ञानाचं तसं नाही; विदाविज्ञान कोणता तरी प्रश्न सोडवतं, भाकितं करतं. निवडणुका जवळ आल्या की कोणता पक्ष जिंकणार-हरणार याचे कल जाहीर होतात. त्यात किती-कशा लोकांना, कोणते-कसे प्रश्न विचारायचे, हे ठरवण्याचं काम म्हणजे शुद्ध संख्याशास्त्र. त्या उत्तरांमधून भाकीत करणं हे काम एके काळी संख्याशास्त्राचं समजलं जात असे. हल्ली त्याला विदाविज्ञानही म्हणतात. विदाविज्ञानात संख्याशास्त्र, संगणकशास्त्र (कंप्युटर सायन्स), मशीन लìनग, असे विविध प्रकार येतात. वेगवेगळ्या उदाहरणांच्या निमित्तानं वेगवेगळ्या लेखांत आपण त्याची चर्चा करू.

शुद्ध संख्याशास्त्राचा तंत्रज्ञानात वापर करण्याचं उदाहरण बघायचं तर ऑटोकरेक्ट नावाचं ‘भूत’ आठवतं. फोनवर लिहिताना काही अक्षरं टंकल्यानंतर फोन शब्द पूर्ण करण्याचे पर्याय सुचवतो. अनेकदा त्यातून विचित्र, अनपेक्षित विनोदही होतात. म्हणायचं असतं एक आणि फोन भलतंच काही सुचवतो, कधी शब्द ‘सुधारतो’. चार-पाच अक्षरांपेक्षा मोठा शब्द असेल तर अनेक अ‍ॅप्समध्ये पुढची अक्षरं सुचवली जातात; अक्षरंच नव्हे, शब्दांच्या सूचना येतात. इंग्लिशमध्ये ईमेल लिहिताना वाक्य पूर्ण करण्याची सुविधा हल्ली गुगल द्यायला लागलं आहे. शब्द पूर्ण करण्याचं एखादं उदाहरण बघू. सोबतचं चित्र पाहा. ‘माझ’ असा शब्द मराठी शब्द नाही. पण त्यातून ‘माझं’, ‘माझी’, ‘माझा’, ‘माझ्या’, ‘माझ्याकडे’ असे बरेच शब्द तयार होऊ शकतात. दुसरी शक्यता अशीही असते की ‘मा’ याच्यापुढचं अक्षर चुकून आलंय; तो शब्द ‘मान’ असा असेल.

एखादी भाषा आपल्याला चांगली बोलता-वाचता येते तेव्हा असं होतं की वाक्याचा थोडा भाग ऐकला तरी पुढे काय शब्द येतील, वाक्य कसं संपेल हे साधारण लक्षात येतं. कधी सामाजिक, राजकीय संदर्भामुळे हे लक्षात येतं. याचं साधं उदाहरण लक्षात आलं ते म्हणजे मला पानभर हिंदी वाचायला मराठीपेक्षा बराच जास्त वेळ लागतो. खरं तर लिपी देवनागरीच, पण हिंदी वाचण्याची सवय नाही. त्यामुळे पुढचा शब्द काय येणार हे लक्षात येत नाही. सगळे शब्द फार लक्ष देऊन वाचावे लागतात. अगदी ‘कमल नमन कर’ अशासारखं सोपं वाक्य वाचण्यासाठीही जास्त वेळ लागतो.

दुसरा भाग असतो तो विषयाचा. आपल्या सवयीच्या विषयांमधलं लेखन वाचणं सोपं असतं. समजा, राजकीय बातमी आहे, त्यात ‘पंतप्रधान’ असा शब्द आला. तर पुढे नरेंद्र मोदी किंवा मनमोहन सिंग, असे मोजकेच शब्द येतात हे आपल्याला माहीत असतं. बातमी आंतरराष्ट्रीय राजकारणाची असेल आणि त्या विषयाबद्दल आपल्याला माहिती नसेल तर बातमीत ‘पंतप्रधान तेरेसा मे’ असे शब्द लक्षपूर्वक वाचावे लागतील.

ऑटोकरेक्ट किंवा शब्दांच्या सूचना करणारी प्रणाली अशाच प्रकारे शब्द आणि भाषा शिकते : कोणत्या अक्षरापुढे कोणती अक्षरं येतात. मराठीत ‘स’ आणि ‘ट’ हे उच्चार आहेत; मराठीत जोडाक्षरं आहेत;  सट, सटवाई असे शब्द आहेत, पण मराठीत ‘स्ट’ असं जोडाक्षर नाही. मराठीत आपण स्टेशन, स्टँड असे शब्द सर्रास वापरतो, पण हे शब्द इंग्लिशमधून आलेले आहेत, जुजबी इंग्लिश येत असेल तरी ते समजतं.

‘स’ या अक्षराचा पाय मोडला, तर पुढे कोणती अक्षरं येण्याची किती शक्यता आहे; हे संख्याशास्त्र. माझ्या फोननं मला पर्याय दाखवले ते या चित्रात पाहा. स्वत, स्पष्ट, स्थान, स्वरूप, स्वच्छ, स्त्री असे शब्द आले. याचा अर्थ स्टेशन, स्टँड असे शब्द एक तर मी फार वापरत नसेन; किंवा या प्रणालीला ते शब्द मराठी असल्याचं माहीत नाही.

त्यात तिसरी शक्यता अशी आहे, लिहायला सुरुवात केली म्हणजे हा शब्द वाक्यातला पहिलाच होता. प्रत्येक भाषेची आपापली वैशिष्टय़ं असतात. त्यानुसार काही शब्द मराठीत वाक्याच्या सुरुवातीला येत नाहीत. क्रियापदांनी सुरुवात होणारी वाक्यं मराठीत सहसा नसतात. ‘आहे’ या शब्दानं सुरुवात होणारं वाक्य मी आजच पहिल्यांदा लिहिलं, आत्ता वाचलंत हेच ते वाक्य.

दुसरं चित्र पाहा; त्यात वाक्याची सुरुवात ‘आह.’ अशी करण्याचा प्रयत्न केला. मराठीत आहार, आहेर असे शब्द आहेत. या सॉफ्टवेअर प्रणालीला, कोणते शब्द वाक्याच्या सुरुवातीला येतात, येत नाहीत, याची संख्याशास्त्रीय माहिती दिसत नाही.

संख्याशास्त्रीय माहिती म्हणजे काय? तर प्रमाण मराठीतली सगळी वाक्यं घेतली – हे व्यावहारिकदृष्टय़ा शक्य नाही – म्हणून ‘लोकसत्ता’मध्ये छापून आलेली सगळी वाक्यं घेतली, तर त्यांत काही वाक्यं सापडतील ज्यांची सुरुवात ‘आह’ अशा अक्षरांनी होते. या निवडून घेतलेल्या किती वाक्यांची सुरुवात आहेर किंवा आहार या शब्दांनी होते; त्यांचं प्रमाण बरंच जास्त असेल. मी ते मोजलेलं नाही, पण मराठी भाषकांना याची कल्पना करणं कठीण नाही. (हेच ते भाषा अवगत असणं.) ही संख्याशास्त्रीय माहिती.

समजा असा प्रकल्प कोणी सुरू केला; प्रमाण मराठीत लिहिल्या जाणाऱ्या वाक्यांच्या सुरुवातीची दोन अक्षरं कोणती, ते शोधायचं. तर आत्तापर्यंत ही सगळी फक्त वाक्यं होती, ती या प्रकल्पापुरती विदा ठरेल. प्रमाण मराठीत लिहिली जाणारी सगळी वाक्यं म्हणजे संपूर्ण विदा. फक्त ‘लोकसत्ता’मधली वाक्यं घेतली तर तो असेल नमुनासंच किंवा वानोळा. यात गृहीतक असं की प्रमाण मराठी बोलीत ज्या विषयांबद्दल बोललं जातं, त्या सगळ्या विषयांबद्दल ‘लोकसत्ता’मध्ये लिहिलं जातं.

हे गृहीतक धरण्याचं कारण असं की वेगवेगळ्या विषयांसाठी वापरली जाणारी भाषा काही किंचित बदलते. या सदराचं नाव आहे ‘विदा- भान’. या लेखांमध्ये ‘विदा’ हा शब्द बरेचदा येतो; पण त्याच पानावर ‘एकात्मयोग’ हे सदरसुद्धा आहे. दोन्हींची भाषा मराठीच असली तरीही दोन्हींमध्ये वापरले जाणारे शब्द बरेच निराळे आहेत.

विदाविज्ञानात संख्याशास्त्राचा उपयोग केला जातो. त्यात एक उपयोग असाही असतो, लेख वाचून त्यांचे विषय काय हे ठरवणं. विदा, संख्याशास्त्र, असे शब्द आले की त्या लेखाचा विषय विदाविज्ञान, असं ठरवता येईल. तसंच सद्गुरू, भवदुख असे शब्द आले तर त्या लेखाचा विषय ‘एकात्मयोग’ असं ठरवता येईल. किंवा शतक, विश्रांती, अंतिम, यजमान असे शब्द आले ती बातमी खेळांबद्दल असेल. कोणत्याही लेख, बातमीतले महत्त्वाचे शब्द उचलले तर विषय कोणता याचं भाकीत करता येतं.

महत्त्वाचे शब्द कसे ठरवायचे? मराठीत ‘आहे’, ‘म्हणून’, ‘आणि’ असे शब्द कोणत्याही विषयात येऊ शकतात. जे शब्द सगळीकडे येतात, त्यांतून माहिती मिळत नाही. ही माहिती म्हणजे संगणकशास्त्रात, गणितात जिला माहिती म्हटलं जातं ती. (मराठी व्यक्तीला ‘आहे’ या क्रियापदातून माहिती मिळते; ‘होतं’ या क्रियापदापेक्षा ती निराळी असते.) ईमेल लिहिताना गुगल वाक्य पूर्ण करण्याचा पर्याय सुचवतं, ते अशा प्रकारची विदा गोळा करूनच.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com

लोकसत्ता आता टेलीग्रामवर आहे. आमचं चॅनेल (@Loksatta) जॉइन करण्यासाठी येथे क्लिक करा आणि ताज्या व महत्त्वाच्या बातम्या मिळवा.

First Published on March 27, 2019 12:15 am

Web Title: vidabhan article by sanhita joshi 7
Next Stories
1 शितावरून भाताची परीक्षा
2 विदेच्या पलीकडले..
3 न-नैतिक बघ्यांचे जथे
Just Now!
X